Skip to main content

ChatGPT está evolucionando mucho más allá de ser un motor de búsqueda basado en texto, ya que OpenAI anunció que está agregando nuevas capacidades de voz y basadas en imágenes a la mezcla.

El asistente de IA generativa, que se ha vuelto extremadamente popular, ha sido una de las historias de éxito tecnológico más grandes de los últimos tiempos desde su debut hace unos nueve meses, permitiendo a cualquiera generar ensayos, poemas y resúmenes a partir de simples indicaciones en texto. Pero ahora, ChatGPT está a punto de volverse mucho más interactivo, ya que los usuarios también podrán tener conversaciones de voz con el chatbot.

El anuncio se produce el mismo día en que Amazon se comprometió a invertir hasta 4 mil millones de dólares en Anthropic, un rival de OpenAI, lo que forma parte de una gran batalla de IA generativa entre las gigantes tecnológicas del mundo, que incluye a Google tratando de ponerse al día con su chatbot Bard, Meta adoptando una firme ética de código abierto para ganar ventaja y Microsoft alineándose estrechamente con OpenAI en sí.

Según informó OpenAI, un usuario podrá pedirle verbalmente a ChatGPT que invente una historia para dormir en el acto, con algunas indicaciones vocales para guiar la narrativa. O el usuario simplemente puede hacerle una pregunta, y ChatGPT dará su respuesta en forma de palabras habladas.

Además, los usuarios de ChatGPT también podrán buscar respuestas utilizando imágenes, como subir una imagen de algo y pedirle a ChatGPT que explique qué es, o que proporcione instrucciones para lograr un objetivo.

La función de voz está impulsada por un nuevo modelo de texto a voz que puede generar voces humanas a partir de texto y unos pocos segundos de voz grabada. OpenAI afirmó que se asoció con actores de voz establecidos para crear cinco voces diferentes, y utilizó su sistema de reconocimiento de voz de código abierto Whisper para transcribir las expresiones verbales en texto.

Spotify también fue anunciado como socio de lanzamiento, con la gigante de la transmisión de música introduciendo una característica bastante ingeniosa para los podcasters que les permite grabar su voz y traducir sus programas del inglés al español, francés o alemán, manteniendo su propia voz original. Sin embargo, parece que OpenAI está siendo cuidadosa para no atraer críticas, ya que no está poniendo esta tecnología a disposición de cualquiera, ha trabajado específicamente con podcasters como Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons y Steven Bartlett para el lanzamiento.

“La nueva tecnología de voz, capaz de crear voces sintéticas realistas a partir de solo unos segundos de voz real, abre puertas a muchas aplicaciones creativas y centradas en la accesibilidad”, escribió la compañía en una publicación de blog. “Sin embargo, estas capacidades también presentan nuevos riesgos, como la posibilidad de que actores maliciosos suplanten a figuras públicas o cometan fraudes”.

Las nuevas características comenzarán a implementarse en las suscripciones Plus y Enterprise de pago en las próximas dos semanas. Para activar las funciones de voz, los usuarios deben dirigirse al menú “configuración” en la aplicación, luego ir a “nuevas funciones” y optar por las conversaciones de voz. Luego deben tocar el botón de auriculares en la esquina superior derecha y seleccionar la voz que desean.

Inicialmente, la voz estará limitada a las aplicaciones de ChatGPT para Android e iOS en una versión beta opcional, mientras que la búsqueda de imágenes estará disponible de forma predeterminada en todas las plataformas.

Leave a Reply