El robots.txt es un archivo que se incluye en la raíz del dominio y sirve para regular el acceso de robots a tu web. Una de las instrucciones que puede recoger el robots.txt es disallow all. Su objetivo es que ningún robot pueda acceder al sitio web.
Por qué usar el disallow all en Robots.txt
Te puede parecer una locura, ¿por qué voy a querer que ningún robot entre a mi web sabiendo que son robots los que deben indexar mi web para que aparezcan entre los resultados de los buscadores?
Es sencillo, si estás trabajando en un proyecto web es posible que no quieras que nadie pueda visitarlo hasta que no esté listo. Por eso prefieres que nadie lo indexe por el momento.
Cómo hacer un disallow all en Robots.txt.
La instrucción para hacer un disallow all en robots.txt está recogida en estas dos líneas:
User-agent: *
Disallow: /
La primera línea significa que la instrucción se aplica a todos los robots. La segunda línea bloqueará el acceso a todas las páginas o archivos que estén disponibles en ese dominio.
El principal inconveniente a la hora de usar esta declaración es que las reglas introducidas en el robots.txt no son obligatorias. Es decir, en última instancia es el robot quien “elige” si hace caso o no. La mayoría de los bosts de buscadores, como Google o Bing, son buenos chicos y respetan este protocolo, pero los robots maliciosos pueden no hacerlo (al fin y al cabo por algo se les llama maliciosos). Sin embargo, incluso con un total Disallow, Google puede indexar ciertas páginas del sitio (y cualquiera le dice algo al grandullon).
Una forma mejor de esconder la web de miradas indiscretas
Si quieres garantizar el bloqueo del paso a todos los bots, puedes utilizar los robots meta tag, unas etiquetas html que funcionan bastante bien. Tu solo tienes que poner está línea de código en la cabecera de todas las páginas que no quieras que se indexen. Si quieres que no se indexe ninguna página de la web, puedes ponerlo en la plantilla.
El código en cuestión es este:
<meta name = «robots» content = «noindex» />
También se podría hacer a través del htacces, aunque es mejor que no toques tu solo ese archivo si no tienes mucha idea de cómo hacerlo.
Te deSEO un buen día,
William Penguin.