Los bots de IA ya ‘scrapean’ más que nunca y son más difíciles de detectar

Los medios digitales están siendo escaneados por inteligencia artificial más de lo que imaginan y en formas que hasta ahora eran difíciles de rastrear. Según el último informe publicado por TollBit, una plataforma de datos especializada en la relación entre publishers y empresas de IA, los bots diseñados para alimentar respuestas en tiempo real (Retrieval-Augmented Generation, o RAG) han aumentado su presencia en webs de medios un 49% en el primer trimestre de 2025 respecto al anterior. En comparación, los bots de entrenamiento, que alimentan LLMs, crecieron un 18% en el mismo periodo.

El cambio no es menor: mientras los bots de entrenamiento acceden una única vez a una web para extraer contenido y entrenar modelos como GPT o Llama, los bots RAG operan constantemente. Su misión es consultar páginas en tiempo real para responder a preguntas formuladas por los usuarios en plataformas como ChatGPT, Perplexity o nuevos motores de búsqueda basados en IA. Esto implica un tráfico constante hacia los medios… pero con escaso retorno.

“RAG no es una venta única, es una sindicación continua. Tiene un valor acumulativo que, en teoría, los medios podrían capitalizar… pero aún no lo están haciendo”, explica Josh Jaffe, ex presidente de medios en Ingenio y consultor especializado en IA, a Digiday.

Bots invisibles y sin licencia

Una de las principales preocupaciones del informe de TollBit es la creciente sofisticación de estos bots. Algunos ya son capaces de simular comportamiento humano, resolver CAPTCHAs y sortear barreras impuestas por archivos como el robots.txt. Esto hace que muchos medios no tengan siquiera constancia del volumen real de scraping que están sufriendo.

Además, gigantes tecnológicos como Google o Bing no diferencian en sus bots entre los que recopilan datos para indexación y los que sirven para IA. Esto significa que si un publisher decide bloquear el acceso a ciertos bots, corre el riesgo de desaparecer de los resultados de búsqueda y perder su tráfico orgánico.

La paradoja se agudiza con el uso de bots como “Google-Extended”, que pueden bloquearse fácilmente, mientras que los sistemas como Gemini o AI Overviews utilizan bots no identificables que no respetan los protocolos tradicionales.

Nuevas vías para monetizar la IA

Aunque muchas conversaciones sobre IA giran en torno a acuerdos de licencia para entrenar modelos, el informe señala que la mayor oportunidad está en monetizar los accesos en tiempo real. Plataformas como TollBit ya ofrecen a los bots un “peaje” para acceder a contenidos, funcionando como intermediarios que redirigen el tráfico automatizado y proponen tarifas por el uso.

“Este modelo empieza a parecerse a un pay-per-query donde las plataformas de IA podrían pagar cada vez que usan contenido periodístico como fuente en sus respuestas”, señala un directivo de medios a Digiday.

El problema es que aún no existen estándares ni una infraestructura robusta para aplicar estos cobros de forma masiva, y muchos medios pequeños carecen de los recursos para implementarlo. IAB Tech Lab trabaja en una API llamada LLM Content Ingest, diseñada para dar más control a los medios, aunque su éxito depende de la colaboración voluntaria de las tecnológicas.

Uno de los datos más alarmantes del informe de TollBit es la desproporción entre scraping y tráfico real. De media, por cada 11 scrapes de Bing, solo se produce una visita humana al sitio. En el caso de OpenAI, la cifra asciende a 179 scrapes por visita, mientras que Perplexity alcanza 369:1 y Anthropic, llega a los 8692:1.

“Las plataformas de IA están extrayendo valor sin devolver prácticamente nada. Es insostenible”, denunciaba Financial Times ante la Cámara de los Lores británica el pasado mes.

TollBit calcula que el tráfico derivado desde aplicaciones de IA representa apenas el 0,04% del tráfico externo total en los medios que analiza. Y la evasión de robots.txt también crece: en marzo de 2025, más de 26 millones de scrapes lo ignoraron deliberadamente.

Una era de “dumping digital” que exige acción

Financial Times ha calificado esta situación como el inicio de una era de “dumping digital”, en la que los contenidos periodísticos son tratados como materia prima gratuita para respuestas generadas por IA, muchas veces sin atribución ni valor añadido. Los expertos coinciden en que el scraping con fines de RAG no es necesariamente negativo si se regula, se monitorea y sobre todo se remunera. La clave está en dejar atrás los mitos, entender los matices técnicos y jurídicos, y negociar modelos que protejan el valor del contenido original.

“Si no actuamos pronto, los medios corren el riesgo de convertirse en proveedores silenciosos de datos para modelos que luego les compiten por atención, tráfico y negocio”, recalca Olivia Joslin, cofundadora de TollBit al citado medio.

¿El siguiente paso? Un nuevo contrato social entre tecnología y periodismo. Porque si los modelos de IA están construidos sobre contenido editorial, es justo que los publishers sean parte activa (y no solo pasiva) de la revolución.

Bots, IA, PublishersNC4 de julio de 2025