En su búsqueda por desarrollar inteligencia artificial capaz de entender una variedad de dialectos diferentes, Meta ha creado un modelo de IA llamado SeamlessM4T que puede traducir y transcribir casi 100 idiomas en texto y discurso.
Disponible como código abierto junto con SeamlessAlign, un nuevo conjunto de datos de traducción, Meta afirma que SeamlessM4T representa un “avance significativo” en el campo de la traducción de discurso a discurso y de discurso a texto impulsado por IA.
SeamlessM4T es algo así como un sucesor espiritual de “No Language Left Behind” de Meta, un modelo de traducción de texto a texto, y “Universal Speech Translator”, uno de los pocos sistemas de traducción directa de discurso a discurso que admiten el idioma Hokkien. Y se basa en “Massively Multilingual Speech”, el marco de Meta que proporciona tecnología de reconocimiento de voz, identificación de idioma y síntesis de voz en más de 1,100 idiomas.
La recopilación de datos para el desarrollo de la IA.
Meta no es la única empresa que invierte recursos en el desarrollo de herramientas de traducción y transcripción de IA sofisticadas. Pero SeamlessM4T es uno de los esfuerzos más ambiciosos hasta la fecha para combinar capacidades de traducción y transcripción en un solo modelo.
Para desarrollarlo, Meta afirma que recopiló datos de texto disponible públicamente (en el orden de “decenas de miles de millones” de oraciones) y discurso (4 millones de horas) de la web. En una entrevista con TechCrunch, Juan Pino, científico investigador en la división de investigación de IA de Meta y colaborador en el proyecto, no reveló las fuentes exactas de los datos, indicando solo que eran “variadas”.
Sin embargo, no todos los creadores de contenido están de acuerdo con la práctica de utilizar datos públicos para entrenar modelos que podrían usarse comercialmente. Algunos han presentado demandas contra empresas que desarrollan herramientas de IA sobre la base de datos de acceso público, argumentando que los proveedores deberían estar obligados a dar crédito, si no compensación, y formas claras de optar por no participar.
Pero Meta afirma que los datos que recopiló, que podrían contener información personal identificable, no estaban protegidos por derechos de autor y provenían principalmente de fuentes de código abierto o con licencia.
Sea como fuere, Meta utilizó los datos de texto y discurso recopilados para crear el conjunto de datos de entrenamiento para SeamlessM4T, llamado SeamlessAlign. Los investigadores alinearon 443,000 horas de discurso con textos y crearon 29,000 horas de alineaciones de “discurso a discurso”, lo que “enseñó” a SeamlessM4T a transcribir el discurso a texto, traducir el texto, generar discurso a partir de texto e incluso traducir palabras habladas en un idioma a palabras en otro idioma.
Meta afirma que en una prueba interna, SeamlessM4T tuvo un mejor rendimiento en tareas de transcripción de discurso a texto frente a ruidos de fondo y “variaciones de los hablantes” en comparación con el modelo actual de transcripción de discurso más avanzado. Atribuye esto a la rica combinación de datos de discurso y texto en el conjunto de datos de entrenamiento, lo que Meta cree que proporciona a SeamlessM4T una ventaja sobre los modelos solo de discurso o solo de texto.
Los sesgos que podría contener el modelo.
Los algoritmos de reconocimiento de voz, también, a menudo contienen sesgos. Un estudio publicado en Proceedings of the National Academy of Sciences mostró que los sistemas de reconocimiento de voz de las principales empresas tenían el doble de probabilidades de transcribir incorrectamente el audio de hablantes negros en comparación con los hablantes blancos.
Meta revela que el modelo “generaliza en exceso a las formas masculinas al traducir desde términos neutrales” y tiene un mejor rendimiento al traducir desde la referencia masculina (por ejemplo, sustantivos como “he” en inglés) en la mayoría de los idiomas.
Además, en ausencia de información de género, SeamlessM4T prefiere traducir la forma masculina alrededor del 10% del tiempo, posiblemente debido a una “sobrerepresentación de léxicos masculinos” en los datos de entrenamiento, especula Meta.
Meta argumenta que SeamlessM4T no agrega una cantidad excesiva de texto tóxico en sus traducciones, un problema común en los modelos de texto generativo y traducción impulsados por IA en general. Pero no es perfecto. En algunos idiomas, como el bengalí y el kirguís, SeamlessM4T hace traducciones más tóxicas, es decir, traducciones llenas de odio o profanidad, sobre temas relacionados con el estatus socioeconómico y la cultura. Y en general, SeamlessM4T es más tóxico en las traducciones que tratan sobre orientación sexual y religión.
Meta señala que la demostración pública de SeamlessM4T contiene un filtro para detectar toxicidad en el discurso de entrada, así como un filtro para el discurso de salida potencialmente tóxico. Sin embargo, ese filtro no está presente por defecto en la versión de código abierto del modelo.
La certeza de la traducción.
Los sistemas de IA pueden generar traducciones más “precisas”, pero esas traducciones podrían estar ocurriendo a expensas de la variedad y diversidad de la traducción. Probablemente por eso Meta desaconseja usar SeamlessM4T para traducciones largas y certificadas, como las reconocidas por agencias gubernamentales y autoridades de traducción. Meta también desalienta el uso de SeamlessM4T para fines médicos o legales, probablemente en un intento de cubrirse en caso de una traducción errónea.
“Este enfoque de un solo sistema reduce errores y retrasos, aumentando la eficiencia y calidad del proceso de traducción, acercándonos a hacer posible una traducción perfecta”, dijo Pino. “En el futuro, queremos explorar cómo este modelo fundamental puede habilitar nuevas capacidades de comunicación, acercándonos finalmente a un mundo donde todos puedan ser comprendidos”.
Esperemos que los humanos no queden completamente excluidos en ese futuro. ¿Qué piensan ustedes? Deja tu comentario.