El equipo de Investigación Fundamental de IA (FAIR) de Meta ha anunciado nuevos modelos y herramientas de inteligencia artificial destinados a la generación de música, la creación de imágenes y la identificación de voces generadas por IA a través de marcas de agua, facilitando así un enfoque abierto para la comunidad.
Meta ha dado a conocer sus más recientes desarrollos bajo un enfoque científico abierto, incluyendo «modelos de generación de texto a imagen y de texto a música, un modelo de predicción de múltiples tokens y una técnica para detectar el habla generada por IA», según ha destacado en una publicación en su blog oficial.
Entre los anuncios, destaca Chameleon, una familia de modelos presentada en mayo que admite texto e imágenes tanto como entrada como resultado, utilizando una arquitectura unificada para codificación y decodificación.
Ahora FAIR ha anunciado la disponibilidad de Chameleon 7B (7.000 millones de parámetros) y 34B (34.000 millones de parámetros) bajo una modalidad de licencia de investigación. Por el contrario, ha optado por no lanzar el generador de imágenes de esta familia.
FAIR también ha facilitado un conjunto de modelos basados en un enfoque de predicción multitoken para un entrenamiento más eficiente de modelos lingüísticos, con capacidad para predecir múltiples palabras futuras de una vez en lugar de un cada vez.
Un tercer conjunto de modelos se recoge bajo el acrónimo JASCO, que responde ‘conjunto de audio y condicionamiento simbólico para la generación de texto a música controlada temporalmente». Con él, la compañía ofrece una herramienta para la generación de música a partir de un texto con varios condicionantes, como acordes o ritmos específicos con un control mejorado sobre el resultado.
A estos modelos los acompaña AudioSeal, una marca de agua diseñada específicamente para audio que detecta la voz generada por una herramienta de IA, incluso si se trata de segmentos en un archivo de audio más extenso. Meta lo ha facilitado bajo una licencia comercial.
Por último, y para mitigar los sesgos geográficos en los modelos de texto a imagen, Meta ha compartido las herramientas diseñadas para ayudar a medir los fallos que presentan sus modelos, que incluyen los indicadores automáticos ‘DIG In’, que evalúan las posibles disparidades geográficas.