Qué es una araña web, web crawler o rastreador

Qué es una araña web, web crawler o rastreador

Tranquilo, no pasa nada si tienes miedo a las arañas. No voy a hablar de arañas de verdad sino de arañas web, que tienen menos patas y en muchos casos son nuestras amigas.

¿Qué es una araña web?

Una araña web es un programa informático que se dedica a recorrer e inspeccionar páginas web desplazándose a través de los enlaces que encuentra. Para que no te despistes, las arañas web también se llaman web spiders, web crawlers o rastreadores webs.

Para qué sirven las arañas webs

Los rastreadores son utilizados por los motores de búsqueda para descubrir nuevos contenidos en la Red y añadirlos a su base de datos. Basicamente la araña llega a la página a través de un enlace, escanea el contenido de la misma y se lo envía al buscador para que la indexe. Luego se va a visitar otra página, y así hasta el infinito.

Cada buscador tiene su propio bot o araña rastreadora. En el caso de Google está el carismático Googlebot.

¿Entonces los web crawlers son nuestros amigos?

Como ves las arañas web son aliadas del posicionamiento. Sin ellas los motores de búsqueda no sabrían la existencia de tu nueva página. Además, visitan tu web cada cierto tiempo para comprobar si ha habido algún cambio.

Sin embargo, no todas las arañas que pululan por la Red pueden ser consideradas amigas. También las hay que solo quieren sacar información jugosa de tu web (correos electrónicos para sus listas de spam) o copiar descaradamente tus contenidos. Eso ya no mola tanto.

Incluso las arañas buenas pueden fastidiarte. Sus visitas a veces son aparatosas y mientras están en tu página ésta se ralentiza y los visitantes humanos lo notan. Por eso lo ideal es que algunos robots no te visiten con más frecuencia de lo debido.

¿Cómo controlar el tráfico de arañas webs en tu sitio?

Lo primero es detectar qué bots visitan tu web. Para ello te recomiendo usar el plugin DataDome Bot Detection for WordPress. Luego hay una base de datos de Robots donde puedes localizar a tus visitantes y conocerles un poco mejor, tal vez viendo sus motivaciones.

¿Quieres impedir el acceso de los rastreadores “malos” y facilitar el trabajo de los “buenos”? Entonces utiliza el archivo robots.txt para establecer las normas de visita a tus web. En éste post te explico cómo.

Ojo, porque estas normas son solo indicaciones que los robots pueden seguir o no. Si necesitas medidas más expeditivas puedes bloquear el acceso a cualquier robot desde el archivo .htaccess.

Te deSEO un buen día,

William Penguin

Hey, like this post? Why not share it with a buddy?

Deja tu respuesta