La inteligencia artificial está cada vez más lejos de la ciencia ficción y más cerca de aplicaciones concretas para la vida diaria. Con ese espíritu, DeepMind, la división de Google que investiga la inteligencia artificial desarrolló, junto con la Universidad de Oxford el software de lectura de labios más avanzado del mundo.
Para lograrlo, los investigadores cargaron miles de horas de programas de televisión de la BBC en una red neuronal y la entrenaron para transcribir los videos basándose en el análisis del movimiento de labios con un nivel de acierto del 46,8%. Este número cobra especial sentido cuando tenemos en cuenta que, ante el mismo desafío, un profesional entrenado en lectura de labios acierta las palabras solo el 12,4% de las veces.
Así definen el proyecto los investigadores de Google:
“El objetivo es reconocer frases y oraciones mirando a un rostro hablar, con o sin sonido. La diferencia con otros proyectos que se concentraban en reconocer un número limitado de palabras y oraciones, nosotros atacamos a la lectura de labios como un problema abierto, pensando en el lenguaje natural y videos de todo tipo.”
Este desarrollo abre el juego no solo a herramientas para personas con discapacidades auditivas, sino a todo tipo de aplicaciones como el subtitulado de películas y la interacción con asistentes digitales como Siri y Alexa a través de gestos.