La Biblioteca Nacional y el BSC crean MarIA, una inteligencia artificial capaz de comprender el español

Actualidad
SEO
Redes Sociales
Publicidad
Formación
Programación
Comercio Electrónico
Transformación
Creación
Startups

Registrarse

¡Bienvenido!Ingrese a su cuenta

tu nombre de usuario

tu contraseña

¿Olvidaste tu contraseña?

Recuperación de contraseña

Recupera tu contraseña

tu correo electrónico

Actualidad
SEO
Redes Sociales
Publicidad
Formación
Programación
Comercio Electrónico
Transformación
Creación
Startups

Líderes
Eventos
Empleo
Entrevistas

redaccion@diariodigitalis.com

Facebook

Twitter

Actualidad
SEO
Redes Sociales
Publicidad
Formación
Programación
Comercio Electrónico
Transformación
Creación
Startups

Actualidad
SEO
Redes Sociales
Publicidad
Formación
Programación
Comercio Electrónico
Transformación
Creación
Startups

por Jorge Lanza

30 de julio de 2021

Actualidad Transformación

El Barcelona Supercomputing Center (BSC) y la Biblioteca Nacional de España (BNE) se han asociado para crear MarIA, una inteligencia artificial diseñada para mejorar el uso del lenguaje español por parte de otros modelos de IA. Este proyecto, que supera en calidad y magnitud a cualquier proyecto similar realizado en el territorio nacional, ha sido financiado con fondos del Plan de Tecnologías del Lenguajes del Ministerio de Asuntos Económicos y Agenda Digital y del proyecto Future Computer Center del BSC e IBM.

Últimamente, no paran de aflorar iniciativas similares. Cada vez más empresas adoptan la inteligencia artificial y modelos de aprendizaje automático para automatizar sus procesos. MarIA es un sistema preparado para procesar el lenguaje natural (español en este caso), algo que ya se ha hecho en otras compañías, como, por ejemplo, la integración GPT-3 con Power Fx presentada en la Microsoft Build 2021, fruto de la alianza entre OpenAI y Microsoft, para asistir a los usuarios que no posean grandes conocimientos de programación.

La IA más versada en la lengua española

Sus responsables, con Marta Villegas (colíder del grupo de minería de textos) a la cabeza, la definen como un conjunto de modelos del lenguaje o, lo que es lo mismo, “redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”. Sus habilidades son tan extraordinarias que, además de conceptos abstractos, puede entender el contexto en el que se utilizan.

Las aplicaciones del nuevo modelo de inteligencia “van desde correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y la subtitulación automática”, entre otras cosas.

Según sus creadores, este corpus, es decir, la cantidad de fuentes utilizadas para entrenar a MarIA, enriquecerá tanto el patrimonio digital español como el del propio archivo de la BNE. Pero ahí no acaba todo. En un futuro, las generaciones venideras podrán usarlo incluso como una referencia en la evolución de la lengua o para entrenar a otros sistemas similares.

Un entrenamiento sin precendentes a nivel nacional

MarIA ha sido entrenada con una cantidad gigantesca de datos. Concretamente, se emplearon 59 terabytes del archivo web de la Biblioteca Nacional para lograr que se convierta en una experta en la lengua de Cervantes. Este sistema se ha publicado de forma gratuita en GitHub para que puedan probarlo todos los desarrolladores interesados.

Sin embargo, los archivos utilizados para su aprendizaje no estarán a su alcance, ya que –como explican- no son de dominio público y, por lo tanto, “no están accesibles en Internet”. El BSC ha podido acceder a ellos gracias a su estrecha colaboración con este organismo en el Plan de Tecnologías del Lenguaje.

Estos datos utilizados para su entrenamiento necesitaron de un proceso de criba para poder prepararlos adecuadamente de cara al aprendizaje de MarIA. Es decir, los archivos se procesaron con la intención de que fueran lo más parecidos posibles al lenguaje natural.

De esta manera, se eliminaron números de páginas, gráficos, frases inacabadas, codificaciones erróneas, oraciones duplicadas, otros idiomas, etc. Este proceso de optimización de las fuentes supuso la friolera de 2.919.000 horas de trabajo para el superordenador MareNostrum. La cantidad resultante fue de 201.080.084 documentos limpios que ocupan 570 gigabytes en su totalidad.

Posteriormente, los investigadores recurrieron a una tecnología basada en Transformer, un modelo de aprendizaje empleado previamente en inglés, que le otorgó a MarIA la capacidad de entender el contexto en el que se utiliza el lenguaje, pudiendo llegar a adivinar cuál es la palabra oculta en un texto en base a su contenido. Actualmente, los dos modelos disponibles cuentan con 125 y 355 millones de parámetros.

El equipo del BSC aún no da por finalizado su proyecto. Los investigadores planean seguir instruyendo a MarIA con otros textos más técnicos, como las publicaciones científicas del CSIC, para perfeccionar aún más sus habilidades lingüísticas. Además, adelantan que ya tienen pensado crear otras variantes de este modelo en catalán, euskera, gallego, portugués y español de Sudamérica.

Imagen de Cesarezz en Pixabay

Facebook

Twitter

Archivado en
aprendizaje automático
Barcelona Supercomputing Center
Biblioteca Nacional
inteligencia artificial
MarIA

Resultados de la Primera Ola del EGM de 2024

Redacción Digitalis - 25 de abril de 2024 0

La Asociación para la Investigación de Medios de Comunicación (AIMC) ha publicado los resultados de la Primera Ola del EGM de 2024, el cual...

Actualidad

El robot humanide Optimus Gen 2 de Tesla, podrían empezar a venderse a partir del 2025

AdminDigitalis - 24 de abril de 2024 0

El director ejecutivo de Tesla, Elon Musk, ha expresado su intención de comercializar su robot humanoide Optimus Gen 2 a finales del próximo año...

Actualidad

Google Podcasts cerrará internacionalmente en junio, migración de contenidos a YouTube Music

Redacción Digitalis - 23 de abril de 2024 0

Google ha informado que su servicio de Google Podcasts, el cual ha cesado en Estados Unidos este mes de abril, será discontinuado a nivel...

Suscríbete a nuestra newsletter

Nombre

Apellido

Email: (obligatorio)

Teléfono

Empresa

Temas de interés

General Actualidad SEO Redes Sociales Publicidad Formación Programación Comercio Electrónico Transformación Creación Star-Ups

He leído y acepto los términos y condiciones
(Obligatorio)

Deja vacío este campo si eres humano:

También te puede gustar

Actualidad

Resultados de la Primera Ola del EGM de 2024

Redacción Digitalis - 25 de abril de 2024 0

La Asociación para la Investigación de Medios de Comunicación (AIMC) ha publicado los resultados de la Primera Ola del EGM de 2024, el cual...

Actualidad

El robot humanide Optimus Gen 2 de Tesla, podrían empezar a venderse a partir del 2025

AdminDigitalis - 24 de abril de 2024 0

El director ejecutivo de Tesla, Elon Musk, ha expresado su intención de comercializar su robot humanoide Optimus Gen 2 a finales del próximo año...

Actualidad

Google Podcasts cerrará internacionalmente en junio, migración de contenidos a YouTube Music

Redacción Digitalis - 23 de abril de 2024 0

Google ha informado que su servicio de Google Podcasts, el cual ha cesado en Estados Unidos este mes de abril, será discontinuado a nivel...

Actualidad

Estudio revela preocupantes prácticas de privacidad en aplicaciones de citas

Redacción Digitalis - 23 de abril de 2024 0

Según reveló la Fundación Mozilla, el 80 % de las aplicaciones de citas amorosas tienen la capacidad de compartir o comercializar la información personal...

Actualidad

Google Maps se actualizará con conexión satelital.

Redacción Digitalis - 22 de abril de 2024 0

Google Maps está en proceso de implementar nuevas funciones que permitirán a los usuarios compartir su ubicación actualizada mediante conectividad satelital. Esto se evidencia...

Transformación

Fundación Linux lanza OPEA para GenAI en empresas

Redacción Digitalis - 17 de abril de 2024 0

La Fundación Linux ha lanzado la Plataforma Abierta para la IA Empresarial (OPEA), una iniciativa destinada a promover el desarrollo de sistemas abiertos de...

DEJA UNA RESPUESTA Cancelar respuesta

Por favor ingrese su comentario!

Por favor ingrese su nombre aquí

¡Has introducido una dirección de correo electrónico incorrecta!

Por favor ingrese su dirección de correo electrónico aquí

Guardar mi nombre, correo electrónico y sitio web en este navegador la próxima vez que comente.

Suscríbete a nuestra newsletter

Sobre Nosotros

Información precisa para profesionales digitales: si la tecnología e Internet son tus herramientas de trabajo, Digitalis es tu sitio. Nacemos para informar, pero también para acompañarte: ¡descubramos juntos las tendencias del cambiante ecosistema digital y atisbemos los caminos del futuro!

Contáctanos: redaccion@diariodigitalis.com

La Biblioteca Nacional y el BSC crean MarIA, una inteligencia artificial capaz de comprender el español

La IA más versada en la lengua española

Un entrenamiento sin precendentes a nivel nacional

Artículos Relacionados

Suscríbete a nuestra newsletter

También te puede gustar

DEJA UNA RESPUESTA Cancelar respuesta

Suscríbete a nuestra newsletter

Sobre Nosotros

Síguenos