Imagino que ya conocéis a Googlebot, ¿no? Os lo presenté el otro día. Si no os acordáis podéis leer mi anterior post: Sobre GoogleBot, el sabueso rastreador de Google. Resumiendo, GoogleBot visita nuestra web para saber si hay alguna novedad y, en caso de haberla, informar a Google al respecto.

Aunque GoogleBot debería ser un aliado de cualquier web máster, sus visitas no siempre son bien recibidas; principalmente por dos motivos:

  • GoogleBot es lo que llamaríamos un visitante pesado. Cuando GoogleBot rastrea nuestra web consume recursos del servidor, así que puede que el resto de usuarios naveguen más lentamente por ese sitio o, incluso, que el ancho de banda se colapse y no se permitan nuevas visitas hasta que GoogleBot termine su trabajo.
  • GoogleBot también es algo cotilla, y cuando está en nuestra web puede ver contenidos que no queremos que vea o meterse en sitios dónde no queremos que se meta. Los motivos para no querer que GoogleBot vea algo de nuestra web pueden ser varios. Por ejemplo, puede ser que tengamos una página en construcción y no queramos que los visitantes lleguen a ella a través de los buscadores hasta que no esté lista del todo. También es posible que simplemente queramos que algunos de los contenidos de nuestra web sean solo accesibles a unos pocos privilegiados y no que la gente acceda a ellos a través de los buscadores.
  • Hay un tercer motivo, aunque este no afecta a GoogleBot (o no debería). Aparte de GoogleBot existen otros robots rastreadores (también leeréis que se habla de ellos como arañas web). Algunos son los robots de otros buscadores -cada buscador tiene su propio robot, pero yo siempre hablo de Google porque es el más usado en España, con diferencia- y otros son robots rastreadores o arañas web que solo buscan conseguir información de las páginas webs (por ejemplo, direcciones de correo) para vendérsela a otras empresas.

Por suerte los web masters cuentan con una herramienta para decirle a GoogleBot y a las arañas web con qué frecuencia les gustaría que visitase su web y en que páginas prefiere que no meta las narices. Esa herramienta es el archivo robots.txt.

El archivo robots.txt es un simple archivo de texto en el que se escriben sentencias interpretables por GoogleBot. Estas sentencias son instrucciones que el robot puede respetar o no. Lo normal es que GoogleBot sea un chico bueno y nos haga caso, pero para el esas instrucciones son más recomendables que obligatorias.

En el próximo post hablaré más en profundidad sobre el archivo robots.txt.

Os deSEO un buen día

William Penguin