La Fundación Wikimedia ha decidido poner a disposición de la comunidad de aprendizaje automático un conjunto de datos estructurados, con el objetivo de facilitar el entrenamiento de modelos de inteligencia artificial de forma transparente y controlada.
Esta iniciativa responde al reciente aumento del tráfico generado por programas automatizados que extraen contenidos de Wikipedia para alimentar sistemas de IA, una práctica que ha generado preocupación dentro de la organización por el uso no regulado de sus recursos.
Esto estaba repercutiendo su capacidad de operar, ya que tenían que dedicar más tiempo y recursos a responder al tráfico no humano, lo que suponía un mayor coste de uso y mantenimiento de las infraestructuras.
Ahora, ha anunciado la creación de un conjunto de datos estructurados de Wikipedia que ha compartido en Kaggle de manera gratuita y abierta, para que pueda puedan usarse en «el entrenamiento de modelos, la construcción de características y para probar canales de procesamiento de lenguaje natural», como explica en un comunicado.
Los datos se han compartido en un formato que pueden leer los ordenadores, en inglés y francés, e incluyen «resúmenes, descripciones breves, datos clave-valor de estilo infobox, enlaces de imágenes y secciones de artículos claramente segmentadas».
