No hay duda sobre el hecho de que Google está a la vanguardia de la inteligencia artificial (IA) y el aprendizaje automático (ML). La evidencia radica en una gama de productos de Google, desde fotografía computacional líder en la industria hasta hacer sugerencias mientras escribimos correos electrónicos. AI y ML están claramente en el centro de todos los esfuerzos de Google.
La aplicación Grabadora de Pixel 4 es otro ejemplo de la habilidad de ML de Google. La compañía lanzó la aplicación de grabadora de audio inteligente junto con el Pixel 4, utilizando el aprendizaje automático en el dispositivo para transcribir automáticamente la grabación. La aplicación también llegó a dispositivos Pixel más antiguos un par de meses después. en un entrada en el blog, Google ahora ha detallado cómo funciona la nueva aplicación Grabadora.
Transcribiendo
La aplicación genera transcripciones en tiempo real de grabaciones de audio. El texto transcrito también se puede buscar, lo que le permite encontrar rápidamente una palabra específica en una conversación sin escuchar toda la grabación.
Para hacer esto, Google utilizó mejoras que realizó en su modelo de reconocimiento de voz en el dispositivo. Este modelo se asegura de que la aplicación Grabadora pueda transcribir largos archivos de audio, hasta unas pocas horas. Las palabras se asignan a la marca de tiempo de una grabación de audio. Entonces, cuando toca una palabra en particular en la transcripción, la reproducción de audio también se inicia desde ese punto de la grabación. Así es también como puede buscar una palabra y saltar a ese punto exacto en la grabación.
Visualizando sonidos
Además, Google explica que utiliza redes neuronales convolucionales para asociar diferentes sonidos con diferentes colores. Este es el mismo modelo de aprendizaje automático en el dispositivo que Google usa para la función Live Caption de Android 10.
El modelo identifica diferentes sonidos como un perro ladrando o un instrumento musical tocando. Luego asigna un color a ese sonido en la forma de onda de audio. Esto ayuda a los usuarios a reconocer los sonidos visualmente. Entonces, la próxima vez que un perro ladre en su grabación, puede saltearlo fácilmente sin tener que desplazarse por el archivo de audio.
La grabadora comprueba los diferentes tipos de perfiles de sonido (voz, música, etc.) cada 50 milisegundos en una ventana de 960 milisegundos. La compañía dice que este proceso «hace posible determinar los tiempos exactos de inicio y finalización de una manera que sea menos propensa a errores que analizar por sí solos grandes segmentos consecutivos de ventanas de 960 ms».
Sugerir títulos y etiquetas
Una vez que finaliza una grabación, la aplicación sugiere etiquetas y títulos para ella. Para hacer esto, Recorder cuenta las ocurrencias de términos y su papel gramatical en una oración. Los términos identificados como entidades se capitalizan. Luego, un algoritmo en el dispositivo etiqueta los nombres y los nombres propios, que los usuarios tienden a recordar fácilmente. Después de esto, los términos pasan por un modelo de lenguaje para puntuación y clasificación. Las selecciones finales son lo que ve como sugerencias de título o etiqueta.
¡Uf! eso es mucho trabajo detrás de escena. Claramente, hacer una aplicación de grabación inteligente no es broma. Google también parece haber pensado mucho en la privacidad del usuario al mantener estos procesos restringidos a su dispositivo. La aplicación todavía no puede diferenciar entre altavoces, pero quizás Google pueda agregar eso en el futuro para mejorar aún más la aplicación.
¿Estás utilizando la nueva aplicación Google Recorder? Háganos saber su experiencia en la sección de comentarios a continuación.