Así es como las herramientas programáticas inspiran la nueva iniciativa de IA de IAB Tech Lab
Cuando IAB Tech Lab anunció el lanzamiento del grupo de trabajo sobre los Protocolos de Monetización de Contenido con IA (CoMP), una iniciativa que a priori se conoció como “LLM Content Ingest API”, algunos expertos del sector se vieron sorprendidos. Se trata de un proyecto ambicioso, cuyo objetivo es construir una infraestructura técnica adecuada para la nueva era de la web abierta dirigida por la inteligencia artificial. El objetivo es proporcionar salvaguardas para la propiedad intelectual de los publishers y desarrollar un marco para que puedan licenciar su contenido a empresas de IA de manera rápida, transparente y justa.
A pesar de no estar directamente vinculado a la programática, Shailley Singh, vicepresidente ejecutivo de producto y director de operaciones de IAB Tech Lab, aseguró que el nuevo grupo de trabajo encaja perfectamente en el ámbito de trabajo de la organización. “Nuestra visión general es asegurarnos de que los beneficios sociales de la internet abierta estén disponibles para las empresas y los creadores y editores que hacen contenido”, afirmó a Videoweek. “En el sentido más amplio de nuestro trabajo, esto encaja perfectamente”.
Los publishers, que constituyen una parte importante de la comunidad que IAB Tech Lab atiende, ya están viendo amenazados sus modelos de negocio por la IA, con muchos reportando caídas en el tráfico como resultado del creciente uso de herramientas de IA. “Si pierdes tráfico, vas a perder ingresos”, dijo Singh. “Y eso afecta a todo el ecosistema publicitario, no solo a los publishers. Porque si los publishers pierden tráfico, hay cada vez menos publicidad en general, y eso afecta a los SSP, DSP y demás players”. Por eso, el nuevo grupo de trabajo tiene la intención de ayudar a sostener el ecosistema de publicidad digital que IAB Tech Lab ha contribuido a construir.
Una puerta “con cerradura y llave”
El primero de los tres objetivos del nuevo grupo de trabajo es dar a los publishers una forma efectiva de restringir el acceso de bots a su contenido, para evitar el scraping: un paso esencial si quieren monetizar el acceso a esos datos. Como lo expresa el Tech Lab, darles “una puerta con cerradura y llave”.
Será tarea del grupo definir exactamente cómo funcionará esto, pero parte del trabajo consistirá en reforzar métodos existentes. Por ejemplo, aunque los archivos robots.txt son usados comúnmente para permitir o bloquear rastreadores, a menudo son simplemente ignorados. Por ello, se considerará obligar al cumplimiento de estos archivos y usar firewalls de aplicaciones web en las redes de entrega de contenido (content delivery networks o CDN) de los publishers para bloquear bots que sigan ignorándolos.
IAB Tech Lab también trabajará en facilitar la clasificación de los distintos tipos de bots que visitan los sitios de los publishers, y en crear una forma de comunicarse con los bots bloqueados para informarles qué deben hacer para acceder al contenido que buscan.
Identificación de bots
Tras un anuncio este año de Cloudflare (uno de los proveedores de CDN más grandes del mundo) de que estaba trabajando en métodos más robustos para bloquear bots de IA, surgieron preguntas sobre si realmente podrían detener a los actores maliciosos. Singh dice que probablemente habrá una carrera armamentista, ya que estos actores buscarán maneras de evadir los firewalls.
Parte del reto radica en identificar el origen de los bots y clasificarlos correctamente. Ya existen iniciativas basadas en autodeclaración, pero los expertos insisten en que será clave desarrollar tecnologías que puedan categorizar bots según su comportamiento observado, y luego decidir si bloquearlos o reportarlos.
Otro problema frecuente que alegan los publishers es que los términos y condiciones de las grandes empresas tecnológicas dificultan el bloqueo de bots de IA. Por ejemplo, si un publisher quiere ser accesible en la búsqueda de Google, debe aceptar los rastreadores de búsqueda de Google. Pero eso también implica aceptar sus rastreadores de IA.
Sin embargo, este problema queda fuera del alcance del grupo. “Eso es más un tema contractual”, explicó Singh. “Nosotros proporcionaremos la tecnología, pero debe haber un esfuerzo más amplio por parte de los publishers para establecer términos que funcionen para ellos”.
Construyendo un marketplace de propiedad intelectual
Una vez que los publishers puedan proteger adecuadamente su contenido, el siguiente paso es establecer un sistema para monetizarlo mediante licencias a empresas de IA. Esto incluye dos partes clave:
Ayudar a los publishers a empaquetar su contenido de forma que las empresas de IA puedan descubrirlo e ingerirlo fácilmente, para decidir qué quieren pagar.
Crear un marketplace a través del cual se puedan realizar las ventas.
Esto no será necesario para todos los acuerdos. En el caso de grandes grupos editoriales y empresas importantes de IA, será más fácil crear acuerdos directos a gran escala (como los que ya estamos viendo). Pero para medios más pequeños o de nicho, y para modelos de lenguaje (LLMs) más pequeños, este tipo de acuerdos puede no ser viable. Singh añadió que los acuerdos grandes que están firmando los publishers no necesariamente valoran su contenido de forma justa, ya que no están ligados al uso. Por eso, algunos podrían preferir herramientas de real-time trading. De ahí la necesidad de un marco que permita la compraventa automatizada del acceso a propiedad intelectual.
Aunque el concepto de real-time trading se parece al de la publicidad programática, hay diferencias importantes. Para empezar, en las licencias de contenido, el comprador es quien da el primer paso, no el vendedor. “Aquí es al revés que nuestro modelo de publicidad”, dijo Singh. “El comprador plantea la demanda en tiempo real, y luego los vendedores responden a esa demanda, así que no hay subasta”.
Sin embargo, otros conceptos del mundo programático podrían trasladarse. “Habrá conceptos como los IDs de oferta (deal IDs) que creo que podemos reutilizar”, dijo Singh. “Podrías crear un ID de oferta que indique cuántas veces pueden rastrear tu sitio, cuántas veces usan tu contenido, con un precio acordado y precios mínimos. También podríamos usar algunas de las capacidades de registro que tenemos con los bidstream logs. Así que podemos coger algunos de esos conceptos, pero tendremos que adaptarlos a estas transacciones, que son diferentes”.
Implicación de las empresas de IA
Para un proyecto tan ambicioso, es importante contar con muchos actores involucrados de todos los lados, pero Singh comentó a Videoweek que, salvo aquellas con grandes negocios publicitarios con las que IAB ya colabora, las empresas de IA no estaban participando.
“Es muy importante que estas empresas se involucren, y ahora mismo no lo están haciendo”, dijo. Singh enfatizó que deberían participar a largo plazo en estos proyectos por su “propio interés”, ya que una Open Web en decadencia acabaría dejando sin contenido que rastrear a los modelos de lenguaje. “Existe el riesgo de crear un ciclo de decadencia para estas compañías”, dijo. “Si los publishers empiezan a cerrar el acceso, los LLMs tendrán menos contenido de calidad que usar, lo que a la larga degradará el contenido que ofrecen a sus propios usuarios. Por eso, es realmente importante que se involucren”, terminó.