asd

redaccion@diariodigitalis.com

Cloudflare lanza función gratuita para bloquear bots de IA que realizan ‘web scraping’

Cloudflare ha introducido una nueva función gratuita en sus servicios de Internet que bloquea automáticamente los bots utilizados por empresas de Inteligencia Artificial (IA) para realizar ‘web scraping’. Esta medida busca prevenir la recopilación de datos de los sitios web de sus clientes.

Con los avances en la IA generativa, la demanda de contenido para entrenar modelos o ejecutar inferencias ha aumentado significativamente. Una de las técnicas empleadas por las empresas para obtener nuevos datos es el ‘web scraping’, un proceso legal donde un software extrae el contenido HTML de sitios web, filtra la información y la almacena para recopilar los datos necesarios para el entrenamiento de modelos de IA.

Aunque algunas compañías desarrolladoras de herramientas impulsadas por esta tecnología identifican los bots de raspado web que utilizan para obtener datos de internet, otras compañías no son tan transparentes. En este sentido, la firma estadounidense Cloudflare ha trasladado que sus clientes no quieren que los bots de IA visiten sus sitios web, especialmente, «aquellos que lo hacen de manera deshonesta».

De cara a ofrecer una solución a esta cuestión, la compañía enfocada a servicios de seguridad en Internet ha agregado una nueva función gratuita a sus servicios con la que bloqueará de forma automática todos los bots de IA que identifique en los sitios web, de manera que no puedan llevar a cabo el comentado raspado de datos.

Así lo ha dado a conocer Cloudflare en un comunicado en su web, en el que ha trasladado su intención de preservar una Internet segura para los creadores de contenido, evitando que los datos de los sitios web de sus clientes puedan ser recopilados y utilizados para entrenar IA.

Tal y como ha matizado, se trata de una herramienta que funciona «con un solo clic» y que está disponible para todos los clientes de Cloudflare, incluidos los que dispongan del nivel gratuito de su servicio, como su aplicación 1.1.1.1 o su plataforma SASE & SSE.

Para habilitarla, bastará con entrar en el apartado de ‘Bots’ dentro del menú de ‘Seguridad’ en su servicio. Tras ello, los usuarios deberán activar la opción ‘Raspadores y rastreadores de IA’, con lo que se comenzará a bloquear a los bots para que no raspen el contenido para aplicaciones de IA como el entrenamiento de modelos.

Id bootcamps Banner

Igualmente, Cloudflare ha explicado que esta función se irá actualizando de forma automática para añadir nuevas huellas de bots infractores que hayan sido identificados como «rastreadores web de gran alcance para el entrenamiento de modelos». Esto se llevará a cabo analizando el tráfico en su red, con lo que la compañía podrá tener un conocimiento «integral» de toda la actividad de los rastreadores de IA.

BOTS DE IA MÁS UTILIZADOS ACTUALMENTE

Junto con esta nueva función, la compañía también ha compartido algunos datos registrados en su plataforma respecto al uso de bots para llevar a cabo ‘web scraping’ actualmente.

Así, ha señalado que, según sus análisis, los bots más utilizados en su red han sido Bytespider de ByteDance -empresa matriz de TikTok-, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI. Entre ellos, el bot Bytespider intentó acceder a un 40,40 por ciento de los sitios web clientes de Cloudflare.

De cerca le sigue GPTBot, que ha accedido a un 35,46 por ciento de sitios web para llevar a cabo raspado de datos. Por su parte, ClaudeBot desciende a un 11,17 por ciento de webs a las que ha tenido acceso.

No obstante, la compañía ha advertido que, a pesar de esta actividad por parte de los bots, es probable que muchos clientes «no sepan que los rastreadores de IA más populares están rastreando activamente sus sitios web».

De hecho, según ha indicado, el pasado mes de junio se identificó que los bots de IA accedieron a alrededor del 39 por ciento del millón de propiedades más importantes de Internet que utilizan Cloudflare, pero solo el 2,98 por ciento de estas webs tomaron medidas para bloquear esas solicitudes.

Con todo ello, Cloudflare ha asegurado que continuarán trabajando para ayudar a mantener Internet como un lugar donde los creadores de contenidos «puedan prosperar y mantener el control total sobre los modelos que se utilizan para entrenar o ejecutar inferencias con su contenido».

Este tipo de iniciativas también se están llevando a cabo por parte de otras plataformas, como es el caso de Reddit, que recientemente anunció que planea actualizar su Protocolo de Exclusión de Robots (archivo robots.txt) para bloquear el acceso de ‘bots’ automatizados a sus datos públicos y evitar así el llamado raspado de datos.

Artículos Relacionados

Suscríbete a nuestra newsletter


(Obligatorio)

También te puede gustar

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Suscríbete a nuestra newsletter