No todos los visitantes de una web son humanos. Algunos son arañas webs que se dedican a rastrear el contenido de la página con diversos objetivos; algunos positivos (como Googlebot, encargado de que nuestros contenidos se indexen) y otros negativos (como sacar la información de contacto de la web para hacer spam.) Por suerte, el archivo robots.txt ayuda a controlar el tráfico de bots rastreadores en nuestro sitio.
Qué es el archivo robots.txt y para qué sirve
El archivo robots.txt no es más que un archivo de texto en el que el webmaster pone una serie de instrucciones dirigidas a los bots rastreadores. Instrucciones como a qué páginas del sitio pueden acceder y con qué frecuencia. Este archivo siempre debe llamarse “robots.txt” (con otro nombre no serviría de nada) y va en la raíz del dominio.
Tú también puedes acceder al robots.txt de cualquier sitio web escribiendo su dirección en el navegador: dominio.extension/robots.txt.
Instrucciones básicas para el robots.txt
Prácticamente las únicas etiquetas que debéis aprender a la hora de escribir el archivo robots.txt son:
- User-agent: indica a que bot van dirigidas las instrucciones que estén debajo. Por ejemplo: User-agent: k2spider indica que las instrucciones van dirigidas al bot k2spider. Si usamos User-agent: * las instrucciones se dirigen a todos los bots.
- Disallow: Instrucción para impedir el acceso del bot a una determinada página de nuestra web. Por ejemplo, este conjunto de instrucciones prohíbe el paso de todos los bots a wp-admin (es la página de acceso al panel de control de WordPress, así que es normal que nadie que no seamos nosotros llegue a ella).
User-agent: *
Disallow: /wp-admin/
- Allow: instrucción para permitir el acceso de un bot a una determinada página o directorio de nuestra web. Este ejemplo sirve para permitir que Googlebot indexe todos los archivos .png y .jpg de una web (o sea, las imágenes).
User-agent: googlebot
Allow:*png
Allow:*jpg
- Crawl-delay: Instrucción para que un bot espere un determinado tiempo (en segundos) entre acceso y acceso a nuestra web. Ejemplo, le decimos a k2spider que deje un intervalo de un minuto entre cada visita:
User-agent: k2spider
Crawl-delay: 60
Como ves, no tiene demasiado misterio. Eso sí, hay que tener en cuenta que las instrucciones del archivo robots.txt son solo sugerencias para los bots; algunos bots rebeldes pueden saltárselas a la torera. Por suerte hay métodos más expeditivos contra esos renegados. Pero para hablar de ellos tendré que esperar a otro post ya que implican el uso de un archivo más avanzado llamado htaccess.
Cómo crear un archivo robots.txt
Es bastante sencillo. Estos son los pasos para hacerlo de la forma más sencilla:
- Abre un documento de bloc de notas (un .txt) y llámalo robots.txt
- Introduce en él las instrucciones que necesites. En la mayoría de los casos te bastará con estas tres líneas básicas:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
(Con el paso del tiempo ya verás si necesitas más instrucciones para restringir el acceso a algún bot en concreto.)
- Guarda los cambios y sube el archivo a la raíz de tu dominio
¿Qué no sabes qué es eso de la raíz del dominio? Puff, a ver cómo te lo explico yo ahora. Bueno, un sitio web está formado por un conjunto de páginas web. Estás paginas están agrupadas en una carpeta alojada en un servidor. Esa carpeta es el directorio principal o la raíz del dominio. Dentro de ese directorio puede haber subcarpetas o subdirectorios. Por ejemplo, https://www.yoseomarketing.com es la raíz de esta web en la que estás ahora mismo, y https://www.yoseomarketing.com/blog/ es una página que se encuentra directamente en el directorio raíz (este blog). Sin embargo, la página https://www.yoseomarketing.com/blog/googlebot-rastreador-web-google/ ya no está en el directorio principal, sino dentro de la subcarpeta blog. Los robots solo buscan en la raíz del dominio, así que no verían el robots.txt si estuviese en un subdirectorio.
Bueno, si tienes problemas con este paso puedes enviarle el archivo a tu proveedor de hosting y pedir que lo suban a la raíz de tu dominio.
Por otro lado, si usas WordPress puedes usar un plugin como Yoast SEO para generar el archivo robots.txt de forma automática.
¿Alguna duda sobre el archivo robots.txt? ¿Algo en lo que pueda ayudarte? Los comentarios están abiertos.
Te deSEO un buen día.
William Penguin.