Meta ha anunciado CM3leon, un nuevo modelo de inteligencia artificial capaz de generar imágenes a partir de texto y viceversa. La compañía todavía no ha señalado cuándo estará disponible su nueva herramienta, pero todo indica que se convertirá en un adversario digno de otros productos similares, como DALL-E 2, Bing Image Creator o Stable Diffusion.
Ayer mismo, comentábamos que Bard llegaba por fin a España y a otros países de la Unión Europea. Y lo hacía acompañado de varias novedades con las que pretendía rivalizar con ChatGPT, su principal competidor en estos momentos. Una de estas novedades, tenía que ver con la posibilidad de incorporar imágenes en nuestras conversaciones en un doble sentido: tanto en nuestras consultas como en las respuestas aportadas por el chatbot.
Un modelo multitarea
Pues bien, ahora ha llegado el turno de Meta, que ha presentado CM3leon, que incluye una serie de características hasta ahora nunca vistas, lo que podría convertirle en la mejor propuesta hasta la fecha en lo que a inteligencia artificial generativa de imágenes se refiere.
“CM3leon logra un rendimiento de última generación para la generación de texto a imagen, a pesar de haber sido entrenado con cinco veces menos cómputo que los métodos anteriores basados en transformadores. CM3leon tiene la versatilidad y efectividad de los modelos autorregresivos, manteniendo bajos costos de entrenamiento y eficiencia de inferencia,” explica Meta en una publicación de su blog.
Recordemos que, recientemente, supimos que el gigante de las redes sociales estaba planeando implementar la IA en todos sus productos de alguna manera. MusicGen, capaz de crear música a partir de texto, fue el primero de estos proyectos que comentamos y, aunque hay muchos otros, hoy le toca el turno a CM3leon.
Como explica la compañía, los modelos generativos de solo texto, como ChatGPT, se adaptan a instrucciones multitarea para ser más versátiles, mientras que los modelos de generación de imágenes acostumbran a especializarse en tareas particulares. Sin embargo, los creadores de CM3leon han optado por la primera opción, lo que ha aumentado considerablemente su eficacia.
“Aplicamos el ajuste de instrucciones multitarea a gran escala a CM3leon para la generación de imágenes y texto, y demostramos que mejora significativamente el rendimiento en tareas como la generación de leyendas de imágenes, la respuesta visual a preguntas, la edición basada en texto y la generación condicional de imágenes,” afirman desde Meta.
Muchas posibilidades
Como comentamos, la herramienta cuenta con una serie de características que la hacen única frente a sus principales rivales. Para empezar, CM3leon es capaz de generar imágenes a partir de texto, pero también de hacerlo en el sentido inverso, algo que no es común en el resto de generadores de imágenes.
Las imágenes que Meta ha logrado obtener con su nuevo producto son bastante sorprendentes y superan con creces a sus rivales en algunos aspectos. Y es que, por ejemplo, parece conocer mejor los detalles de la anatomía humana, como vemos en la imagen de la mano; y eso es algo en lo que otras herramientas similares aún fallan bastante, llegando a generar resultados que son incluso aterradores.
Además, el modelo de IA parece ser más capaz que otros para comprender y analizar el contexto de las imágenes, es decir, lo que Meta califica como información estructural o de diseño. Según sus creadores, “esto permite que los modelos de CM3leon creen ediciones visualmente coherentes y contextualmente apropiadas para una imagen mientras se adhieren a la estructura dada o las pautas de diseño”.
A modo de ejemplo, la compañía de Zuckerberg nos muestra una imagen en la que la herramienta ha sido capaz de colocar una serie de objetos en las coordenadas que le han indicado en la descripción.
Por si esto fuera poco, CM3leon nos permite editar las imágenes que ha generado por medio de instrucciones, algo que hasta ahora no habíamos visto. En el ejemplo, vemos el famoso cuadro original “La joven de la perla” de Vermeer y algunas de las variantes que ha obtenido con el nuevo modelo utilizando distintos prompts.
Además de esto, se nos muestra una vez más lo competente que es CM3leon para comprender el contexto de las imágenes. Y es que tras añadir una, podemos hacerle preguntas al modelo sobre ella y las respuestas que ofrece parecen ser bastante acertadas.
Imagen de Meta