El volumen de contenido que circula por Internet es incontable y, aunque es imposible abarcarlo todo, la barrera del idioma no debería suponer un problema para acceder a información que pueda resultar de interés.
Según datos de Internet World Stats, procedentes de un estudio de marzo de este año, los 10 principales idiomas utilizados en la red son el inglés, el chino, el español, el árabe, el portugués, el indonesio/malayo, el francés, el japonés, el ruso y el alemán. Estos datos reflejan el número de usuarios de Internet según el idioma que hablen que, en el caso de estos 10 idiomas principales, abarcan el 76,9% de todas las personas que utilizan Internet en el mundo.
Facebook, que ronda los 2.500 millones de usuarios en todo el mundo –dos tercios de los cuales no utilizan el inglés–, ha dado un paso más en su propósito de unir a las personas a través de su red social lanzando un traductor desarrollado a partir de Inteligencia Artificial que abarca 100 idiomas.
Se trata de un modelo de traducción automática multilingüe (MMT) denominado M2M-100 y creado a partir de 7.500 millones de pares de oraciones en un centenar de idiomas. Utilizando estrategias basadas en Inteligencia Artificial, Facebook ha creado datos de traducción en cualquier dirección que no dependen del inglés como puente, es decir, que no necesitan ser traducidos en primera instancia a este idioma para posteriormente transformarse en otra lengua.
Para ello, la compañía de Mark Zuckerberg ha aplicado varias técnicas de escala para construir un modelo universal con 15.000 millones de parámetros y lograr mayor diversidad en cuanto lenguaje y morfología del mismo.
Tal y como explican en su blog, tras muchos años de investigación en este campo su nuevo «modelo multilingüe único funciona tan bien como los modelos bilingües tradicionales y logró una mejora de 10 puntos BLEU sobre los modelos multilingües centrados en el inglés».
Modelo de código abierto para ayudar a la investigación
Facebook explica que el mayor obstáculo para la creación de este modelo es «seleccionar grandes volúmenes de pares de oraciones de calidad (también conocidas como oraciones paralelas) para direcciones de traducción arbitrarias que no involucren el inglés». Por ejemplo, es más sencillo encontrar traducciones del chino al inglés y del inglés al francés que del francés al chino.
La tarea ha sido posible gracias a la combinación de recursos complementarios de minería de datos desarrollados durante años a partir de fuentes de datos públicas como ccAligned, ccMatrix y LASER. A partir de esta información, Facebook ha creado la base de datos LASER 2.0, que es de la que se nutre el modelo M2M-100, de código abierto.
El proceso ha sido complejo, tal y como recalcan desde el departamento de Facebook dedicado a la Inteligencia Artificial, ya que «la extracción de datos de entrenamiento a gran escala para pares arbitrarios de 100 idiomas diferentes es altamente intensiva a nivel computacional».
Para lograr un mejor manejo de este elevado volumen de datos, la compañía se enfocó en primer lugar en aquellos idiomas que contaban con un mayor número de solicitudes de traducción. Por tanto, dieron prioridad a trabajar con la mayor cantidad de datos de la mejor calidad, y evitaron «direcciones para las que la necesidad de traducción es estadísticamente rara, como islandés-nepalí o cingalés-javanés».
El traductor de Facebook compite con otras herramientas tan utilizadas como Google Translate o DeepL, pero desde la empresa se muestran altamente satisfechos de esta hazaña lograda gracias a los avances de la Inteligencia Artificial y a un arduo trabajo durante años. Por ello y para ayudar a otros investigadores a avanzar en sistemas de traducción multilingües pone a disposición el modelo que ha creado.
Imagen de Gerd Altmann en Pixabay.