Meta ha anunciado CM3Leon, un modelo de inteligencia artificial que afirma alcanzar un rendimiento de última generación en la generación de imágenes a partir de texto. CM3Leon es uno de los primeros generadores de imágenes capaces de generar subtítulos para imágenes, sentando las bases para modelos más capaces de comprender imágenes en el futuro.
CM3Leon es un modelo transformador que utiliza un mecanismo llamado “atención” para evaluar la relevancia de los datos de entrada, como texto o imágenes. Esto mejora la velocidad de entrenamiento del modelo y permite entrenar transformadores más grandes con un aumento significativo pero alcanzable en el rendimiento.
Según Meta, CM3Leon es incluso más eficiente que la mayoría de los transformadores, ya que requiere cinco veces menos capacidad de cálculo y un conjunto de datos de entrenamiento más pequeño que los métodos anteriores basados en transformadores.
Para entrenar CM3Leon, Meta utilizó millones de imágenes con licencia de Shutterstock. La versión más capaz de CM3Leon construida por Meta tiene 7 mil millones de parámetros, más del doble que DALL-E 2.
Una técnica clave para mejor rendimiento de CM3Leon es el ajuste fino supervisado (SFT), que ha sido utilizado con éxito en modelos generadores de texto como ChatGPT. El ajuste fino supervisado mejoró el rendimiento de CM3Leon tanto en la generación de imágenes como en la escritura de subtítulos de imágenes, lo que le permite responder preguntas sobre imágenes y editar imágenes siguiendo instrucciones de texto.
A diferencia de otros generadores de imágenes, CM3Leon tiene un mejor desempeño con objetos complejos y textos que incluyen demasiadas restricciones. Al compararlo con DALL-E 2, las imágenes generadas por CM3Leon suelen ser más cercanas y detalladas en relación a las instrucciones.
CM3Leon también puede comprender instrucciones para editar imágenes existentes. Por ejemplo, puede generar una imagen de alta calidad de una habitación con un lavabo y un espejo, y hasta ubicar una botella en una posición específica.
En términos de imparcialidad, Meta menciona que CM3Leon “puede reflejar cualquier sesgo presente en los datos de entrenamiento”, pero no aborda específicamente el problema del sesgo en generadores de IA.
A medida que los modelos generativos de IA se vuelven cada vez más sofisticados, Meta destaca la importancia de la transparencia para acelerar el progreso y abordar los desafíos asociados.
Resumiendo un poco, CM3Leon busca ser un antes y un después en las IA’s que conocemos. Meta aún no ha anunciado una fecha específica del lanzamiento de este generador inteligente, pero debido a los constantes avances con respecto a la IA, pronto estaremos disfrutando de él.