Las visitas a nuestra web de los robots rastreadores o arañas, con Googlebot a la cabeza, no siempre son como nos gustaría. Como he estado diciendo en mis últimos posts, a veces querríamos que se pasasen a vernos más a menudo y, en cambio, otras veces preferiríamos no verlos con demasiada frecuencia (especialmente en el caso de algunos rastreadores) o vigilar en que páginas de nuestra web entran.

Apenas tuve tiempo para dedicarle al archivo robots.txt en mi anterior post. Pero si os adelanté que mediante este archivo los webmasters podían tratar de regular el tráfico de visitas de robots rastreadores a su web.

El archivo robots.txt no es más que un archivo de texto en el que el webmaster introduce una serie de instrucciones dirigidas a los bots rastreadores. Este archivo siempre debe llamarse «robots.txt» (con otro nombre no serviría de nada) y va en la raíz del dominio.

¿Qué algunos no tenéis ni idea de que es eso de la raíz del dominio? Puff, a ver como os lo explico yo ahora. Bueno, un sitio web está formado por un conjunto de páginas web. Estás paginas están agrupadas en una carpeta alojada en un servidor. Esa carpeta es el directorio principal o la raíz del dominio. Dentro de ese directorio puede haber subcarpetas o subdirectorios. Por ejemplo, https://www.yoseomarketing.com es la raíz de esta web en la que estás ahora mismo, y https://www.yoseomarketing.com/blog/ es una página que se encuentra directamente en el directorio raíz (este blog). Sin embargo, la página https://www.yoseomarketing.com/blog/googlebot-rastreador-web-google/ ya no está en el directorio principal, sino dentro de la subcarpeta blog. Los robots solo buscan en la raíz del dominio, así que no verían el robots.txt si estuviese en un subdirectorio.

Prácticamente las únicas etiquetas que debéis aprender a la hora de escribir el archivo robots.txt son:

User-agent: indica a que bot van dirigidas las instrucciones que estén debajo. Por ejemplo: User-agent: k2spider indica que las instrucciones van dirigidas al bot k2spider. Si usamos User-agent: * las instrucciones se dirigen a todos los bots.
Disallow: Instrucción para impedir el acceso del bot a una determinada página de nuestra web. Por ejemplo, el siguiente código trata de impedir el acceso del bot k2spider a un subdirectorio llamado /wiki/user:

User-agent: k2spider

Disallow: /wiki/user

Crawl-delay: Instrucción para que un bot espere un determinado tiempo (en segundos) entre acceso y acceso a nuestra web. Ejemplo, le decimos a k2spider que deje un intervalo de un minuto entre cada visita:

User-agent: k2spider

Crawl-delay: 60

Como veis, no tiene demasiado misterio. Eso sí, hay que tener en cuenta que las instrucciones del archivo robots.txt son solo sugerencias para los bots; algunos bots rebeldes pueden saltárselas a la torera. Por suerte hay métodos más expeditivos contra esos renegados. Pero para hablar de ellos tendré que esperar a otro post.

Os deSEO un buen día.

William Penguin.

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Análisis".
cookielawinfo-checkbox-functional	11 months	La cookie está configurada por el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Funcional".
cookielawinfo-checkbox-necessary	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesario".
cookielawinfo-checkbox-others	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Otro.
cookielawinfo-checkbox-performance	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Rendimiento".
viewed_cookie_policy	11 months	La cookie está configurada por el complemento de consentimiento de cookies de GDPR y se utiliza para almacenar si el usuario ha dado su consentimiento o no para el uso de cookies. No almacena ningún dato personal.

Sobre la utilidad de crear un archivo robots.txt