Espero que no te den miedo las arañas, porque este post va sobre ellas. Pero no te preocupes, porque no son de esas que te pican y dan tanto asco, sino arañas web o, si lo prefieres,web spiders,  web crawlers, rastreadores web o robots que se dedican al web crawling. ¿Te estoy abrumando con tanto nombrecito? Disculpa, tendría que haber empezado por aquí:

¿Qué es una araña web?

Un rastreador o web spider es un programa que visita sitios web y lee sus páginas y otra información con el fin de crear entradas para un índice del motor de búsqueda. Así es, puede que algunos de los visitantes de tu web sean no humanos.

El web crawler más famoso es Googlebot, que visita todas las webs con cierta frecuencia para añadir nuevas páginas al indice de Google y notificar los cambios de contenidos. Pero cada buscador, por modesto que sea, cuenta con su propio robot rastreador.

Web spiders: ¿amigos o enemigos?

Como siempre, que un visitante sea bueno o malo depende de sus intenciones. Los rastreadores que se dedican al web crawling para los motores de búsqueda casi siempre deberían ser bien recibidos en tu web, porque como ya hemos dicho trabajan para incluir tus páginas en los indices de los buscadores. Si una web no estuviese indexada por Googlebot, perdería la principal fuente de visitas. Así que más te vale ser amable con él.

Por otro lado, existen un par de ocasiones en las que los rastreadores web de los motores de búsqueda son visitantes indeseados. Una cuando vienen muy a menudo y otra cuando entran en páginas que por algún motivo quieres ocultar.

Vayamos por partes, las visitas de una araña web ocupan mucho ancho de banda del servidor. Esto significa que si algún internauta se mete en una página que está siendo visitada por una araña puede que la navegación sea más lenta de lo habitual o incluso que la página esté caída y no pueda acceder nadie. Por otro lado está el problema de que como he dicho haya páginas de tu web que no quieras que se indexen. Uno de los motivos más habituales es que aún esté en construcción. Por suerte, en el archivo robots.txt de tu sitio puedes indicar qué páginas quieres que no se visiten y cual te gustaría que fuese el tiempo mínimo entre visitas de un rastreador web. Las arañas no están obligadas a cumplir esas normas, pero la mayoría lo hacen porque siguen las llamadas normas de cortesía.

El web crawling no es una actividad exclusiva de los buscadores. Cualquiera puede crear su propia araña web (si tiene los conocimientos necesarios) y utilizarla para rastrear la información que quiera. Por ejemplo, son habituales las arañas que se dedican a buscar direcciones de correo para luego vendérselas a empresas. Esos son sin dudas los visitantes más molestos, pero siempre hay formas de cerrarles el paso.

Te deSEO un buen día,

William Penguin.