Las visitas a nuestra web de los robots rastreadores o arañas, con Googlebot a la cabeza, no siempre son como nos gustaría. Como he estado diciendo en mis últimos posts, a veces querríamos que se pasasen a vernos más a menudo y, en cambio, otras veces preferiríamos no verlos con demasiada frecuencia (especialmente en el caso de algunos rastreadores) o vigilar en que páginas de nuestra web entran.
Apenas tuve tiempo para dedicarle al archivo robots.txt en mi anterior post. Pero si os adelanté que mediante este archivo los webmasters podían tratar de regular el tráfico de visitas de robots rastreadores a su web.
El archivo robots.txt no es más que un archivo de texto en el que el webmaster introduce una serie de instrucciones dirigidas a los bots rastreadores. Este archivo siempre debe llamarse «robots.txt» (con otro nombre no serviría de nada) y va en la raíz del dominio.
¿Qué algunos no tenéis ni idea de que es eso de la raíz del dominio? Puff, a ver como os lo explico yo ahora. Bueno, un sitio web está formado por un conjunto de páginas web. Estás paginas están agrupadas en una carpeta alojada en un servidor. Esa carpeta es el directorio principal o la raíz del dominio. Dentro de ese directorio puede haber subcarpetas o subdirectorios. Por ejemplo, https://www.yoseomarketing.com es la raíz de esta web en la que estás ahora mismo, y https://www.yoseomarketing.com/blog/ es una página que se encuentra directamente en el directorio raíz (este blog). Sin embargo, la página https://www.yoseomarketing.com/blog/googlebot-rastreador-web-google/ ya no está en el directorio principal, sino dentro de la subcarpeta blog. Los robots solo buscan en la raíz del dominio, así que no verían el robots.txt si estuviese en un subdirectorio.
Prácticamente las únicas etiquetas que debéis aprender a la hora de escribir el archivo robots.txt son:
- User-agent: indica a que bot van dirigidas las instrucciones que estén debajo. Por ejemplo: User-agent: k2spider indica que las instrucciones van dirigidas al bot k2spider. Si usamos User-agent: * las instrucciones se dirigen a todos los bots.
- Disallow: Instrucción para impedir el acceso del bot a una determinada página de nuestra web. Por ejemplo, el siguiente código trata de impedir el acceso del bot k2spider a un subdirectorio llamado /wiki/user:
User-agent: k2spider
Disallow: /wiki/user
- Crawl-delay: Instrucción para que un bot espere un determinado tiempo (en segundos) entre acceso y acceso a nuestra web. Ejemplo, le decimos a k2spider que deje un intervalo de un minuto entre cada visita:
User-agent: k2spider
Crawl-delay: 60
Como veis, no tiene demasiado misterio. Eso sí, hay que tener en cuenta que las instrucciones del archivo robots.txt son solo sugerencias para los bots; algunos bots rebeldes pueden saltárselas a la torera. Por suerte hay métodos más expeditivos contra esos renegados. Pero para hablar de ellos tendré que esperar a otro post.
Os deSEO un buen día.
William Penguin.