asd

redaccion@diariodigitalis.com

ByteDance acelera la extracción de datos con su ‘bot’ Bytespider

ByteDance lleva meses extrayendo datos de Internet con un ‘bot’ llamado Bytespider, una actividad que realiza a mayor velocidad que los ‘bots’ de otras empresas líderes en el mercado de los grandes modelos de lenguaje (LLM, por sus siglas en inglés).

Los grandes modelos de lenguaje necesitan enormes cantidades de datos para su entrenamiento, que solo se encuentran en internet, donde ya operan varios ‘bots’ para ‘raspar’ o extraer información de sitios web.

Firmas como Google, Meta, Amazon, OpenAI y Anthropic utilizan sus propios ‘bots’, pero no son los únicos. ByteDance también cuenta con Bytespider, que apareció en abril, como han confirmado las firmas especializadas Kasada y Dark Visitors a Fortune.

Bytespider tiene la particularidad de que en poco tiempo se ha vuelto muy agresivo en la recopilación de datos, como se desprenden de los informes de Kasada. Según el director ejecutivo de esta firma, Sam Crowther, extrae datos a una velocidad 25 superior a la de GPTbot (OpenAI) y 300 veces superior a la de ClaudeBot (Anthropic).

El ‘bot’ de ByteDance, además, no respeta la línea de código robots.txt, que los editores de medios de comunicación pueden incorporar a su sitio web para indicar a los ‘bots’ que no extraigan datos. Tampoco lo respetan GPTbot y ClaudeBot.

Detrás de esta extracción masiva de datos parece estar el desarrollo de un nuevo LLM por parte de ByteDance, según ha compartido una fuente familiarizada con el asunto con Fortune, que se usaría para la función de búsqueda de TikTok, según otra fuente.

Artículos Relacionados

Suscríbete a nuestra newsletter


(Obligatorio)

También te puede gustar

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Suscríbete a nuestra newsletter