Según informaciones proporcionadas por Cloudflare, el motor de búsqueda de inteligencia artificial, Perplexity, ha adoptado métodos poco convencionales para sortear las restricciones de rastreo en sitios web, una práctica que podría estar transgrediendo las normativas de Internet establecidas desde hace más de tres décadas.
En una entrada reciente en su blog, los investigadores de Cloudflare revelaron que han recibido múltiples quejas de clientes que intentaron bloquear los bots de rastreo de Perplexity mediante la configuración de archivos robots.txt en sus sitios web y el uso de cortafuegos de aplicaciones web. A pesar de estas medidas, Perplexity logró continuar accediendo al contenido de los sitios.
El equipo de Cloudflare decidió investigar el asunto por cuenta propia y descubrió que, al enfrentarse con bloqueos provenientes de los archivos robots.txt o las reglas de los cortafuegos, Perplexity activaba un bot de rastreo sigiloso. Este bot empleaba diversas tácticas para ocultar su actividad, incluyendo el uso de múltiples direcciones IP que no estaban registradas dentro del rango oficial de IP de Perplexity, además de rotar estas direcciones para sortear las restricciones.
Además de la rotación de IP, los investigadores notaron que las solicitudes se originaban desde diferentes Sistemas Autónomos (ASNs por sus siglas en inglés), en un aparente intento de evadir aún más los bloqueos impuestos por los sitios web. Esta actividad irregular se extendió a través de decenas de miles de dominios, con millones de solicitudes diarias.
Este método subrepticio de evasión va en contra de las normas de Internet que han sido observadas y respaladas por la comunidad global desde su propuesta inicial en 1994. En aquel año, el ingeniero Martijn Koster introdujo el Protocolo de Exclusión de Robots, diseñado para ofrecer un formato legible por máquinas que indicase a los crawlers cuándo no tenían permiso para acceder a un sitio. Este protocolo, que facilitó la instalación de un simple archivo robots.txt en la raíz de los sitios web, fue finalmente reconocido formalmente como un estándar por la Internet Engineering Task Force en 2022.
La transgresión de estas prácticas establecidas podría poner a Perplexity bajo escrutinio considerable, considerando la importancia de adherirse a los estándares éticos y técnicos para la operación de tecnologías en el Internet global.