redaccion@diariodigitalis.com

La Biblioteca Nacional y el BSC crean MarIA, una inteligencia artificial capaz de comprender el español

El Barcelona Supercomputing Center (BSC) y la Biblioteca Nacional de España (BNE) se han asociado para crear MarIA, una inteligencia artificial diseñada para mejorar el uso del lenguaje español por parte de otros modelos de IA. Este proyecto, que supera en calidad y magnitud a cualquier proyecto similar realizado en el territorio nacional, ha sido financiado con fondos del Plan de Tecnologías del Lenguajes del Ministerio de Asuntos Económicos y Agenda Digital y del proyecto Future Computer Center del BSC e IBM.

Últimamente, no paran de aflorar iniciativas similares. Cada vez más empresas adoptan la inteligencia artificial y modelos de aprendizaje automático para automatizar sus procesos. MarIA es un sistema preparado para procesar el lenguaje natural (español en este caso), algo que ya se ha hecho en otras compañías, como, por ejemplo, la integración GPT-3 con Power Fx presentada en la Microsoft Build 2021, fruto de la alianza entre OpenAI y Microsoft, para asistir a los usuarios que no posean grandes conocimientos de programación.

La IA más versada en la lengua española

Sus responsables, con Marta Villegas (colíder del grupo de minería de textos) a la cabeza, la definen como un conjunto de modelos del lenguaje o, lo que es lo mismo, “redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”. Sus habilidades son tan extraordinarias que, además de conceptos abstractos, puede entender el contexto en el que se utilizan.

Las aplicaciones del nuevo modelo de inteligencia “van desde correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y la subtitulación automática”, entre otras cosas.

Según sus creadores, este corpus, es decir, la cantidad de fuentes utilizadas para entrenar a MarIA, enriquecerá tanto el patrimonio digital español como el del propio archivo de la BNE. Pero ahí no acaba todo. En un futuro, las generaciones venideras podrán usarlo incluso como una referencia en la evolución de la lengua o para entrenar a otros sistemas similares.

Id bootcamps Banner

Un entrenamiento sin precendentes a nivel nacional

MarIA ha sido entrenada con una cantidad gigantesca de datos. Concretamente, se emplearon 59 terabytes del archivo web de la Biblioteca Nacional para lograr que se convierta en una experta en la lengua de Cervantes. Este sistema se ha publicado de forma gratuita en GitHub para que puedan probarlo todos los desarrolladores interesados.

Sin embargo, los archivos utilizados para su aprendizaje no estarán a su alcance, ya que –como explican- no son de dominio público y, por lo tanto, “no están accesibles en Internet”. El BSC ha podido acceder a ellos gracias a su estrecha colaboración con este organismo en el Plan de Tecnologías del Lenguaje.

Estos datos utilizados para su entrenamiento necesitaron de un proceso de criba para poder prepararlos adecuadamente de cara al aprendizaje de MarIA. Es decir, los archivos se procesaron con la intención de que fueran lo más parecidos posibles al lenguaje natural.

De esta manera, se eliminaron números de páginas, gráficos, frases inacabadas, codificaciones erróneas, oraciones duplicadas, otros idiomas, etc. Este proceso de optimización de las fuentes supuso la friolera de 2.919.000 horas de trabajo para el superordenador MareNostrum. La cantidad resultante fue de 201.080.084 documentos limpios que ocupan 570 gigabytes en su totalidad.

Posteriormente, los investigadores recurrieron a una tecnología basada en Transformer, un modelo de aprendizaje empleado previamente en inglés, que le otorgó a MarIA la capacidad de entender el contexto en el que se utiliza el lenguaje, pudiendo llegar a adivinar cuál es la palabra oculta en un texto en base a su contenido. Actualmente, los dos modelos disponibles cuentan con 125 y 355 millones de parámetros.

El equipo del BSC aún no da por finalizado su proyecto. Los investigadores planean seguir instruyendo a MarIA con otros textos más técnicos, como las publicaciones científicas del CSIC, para perfeccionar aún más sus habilidades lingüísticas. Además, adelantan que ya tienen pensado crear otras variantes de este modelo en catalán, euskera, gallego, portugués y español de Sudamérica.

Imagen de Cesarezz en Pixabay

Artículos Relacionados

Suscríbete a nuestra newsletter


(Obligatorio)

También te puede gustar

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Suscríbete a nuestra newsletter