Skip to main content

OpenAI ha lanzado Whisper API, una versión del modelo de reconocimiento de voz a texto de código abierto Whisper que la compañía lanzó en septiembre del 2022. Por un precio de $0.006 por minuto, Whisper es un sistema de reconocimiento de voz automático que permite una transcripción “robusta” en varios idiomas y una traducción desde esos idiomas al inglés. Toma archivos en una variedad de formatos, incluyendo M4A, MP3, MP4, MPEG, MPGA, WAV y WEBM.

A diferencia de otros sistemas de reconocimiento de voz, Whisper fue entrenado en 680,000 horas de datos “multitarea” y multilingües recopilados de la web, lo que, según el presidente del consejo de OpenAI, Greg Brockman, llevó a una mejora en el reconocimiento de acentos únicos, ruido de fondo y jerga técnica.

Sin embargo, Whisper tiene limitaciones en cuanto a la predicción de la “siguiente palabra”. Debido a que el sistema fue entrenado con una gran cantidad de datos ruidosos, OpenAI advierte que Whisper puede incluir palabras en sus transcripciones que en realidad no fueron habladas, posiblemente porque está tratando de predecir la siguiente palabra en el audio y transcribir la grabación de audio en sí. Además, Whisper no tiene un rendimiento igual en todos los idiomas, sufriendo una tasa de error más alta cuando se trata de hablantes de idiomas que no están bien representados en los datos de entrenamiento.

A pesar de estas limitaciones, OpenAI ve que las capacidades de transcripción de Whisper se utilizan para mejorar aplicaciones, servicios, productos y herramientas existentes. Por ejemplo, la aplicación de aprendizaje de idiomas Speak está utilizando la Whisper API para alimentar un nuevo compañero virtual de habla en la aplicación.

OpenAI ve a Whisper como una herramienta universal para todo tipo de datos y tareas, lo que podría convertirse en una fuente de ingresos importante para la empresa respaldada por Microsoft. Según un informe, el mercado de transcripción de voz podría valer $5.4 mil millones para 2026, frente a los $2.2 mil millones de 2021.

Leave a Reply