Contenidos

    alt

    El robots.txt es un archivo que se incluye en la raíz del dominio y sirve para regular el acceso de robots a tu web. Una de las instrucciones que puede recoger el robots.txt es disallow all. Su objetivo es que ningún robot pueda acceder al sitio web.

    Por qué usar el disallow all en Robots.txt

    Te puede parecer una locura, ¿por qué voy a querer que ningún robot entre a mi web sabiendo que son robots los que deben indexar mi web para que aparezcan entre los resultados de los buscadores?

    Es sencillo, si estás trabajando en un proyecto web es posible que no quieras que nadie pueda visitarlo hasta que no esté listo. Por eso prefieres que nadie lo indexe por el momento.

    Cómo hacer un disallow all en Robots.txt.

    La instrucción para hacer un disallow all en robots.txt está recogida en estas dos líneas:

    User-agent: *

    Disallow: /

    La primera línea significa que la instrucción se aplica a todos los robots. La segunda línea bloqueará el acceso a todas las páginas o archivos que estén disponibles en ese dominio.

    El principal inconveniente a la hora de usar esta declaración es que las reglas introducidas en el robots.txt no son obligatorias. Es decir, en última instancia es el robot quien “elige” si hace caso o no. La mayoría de los bosts de buscadores, como Google o Bing, son buenos chicos y respetan este protocolo, pero los robots maliciosos pueden no hacerlo (al fin y al cabo por algo se les llama maliciosos). Sin embargo, incluso con un total Disallow, Google puede indexar ciertas páginas del sitio (y cualquiera le dice algo al grandullon).

    Una forma mejor de esconder la web de miradas indiscretas

    Si quieres garantizar el bloqueo del paso a todos los bots, puedes utilizar los robots meta tag, unas etiquetas html que funcionan bastante bien. Tu solo tienes que poner está línea de código en la cabecera de todas las páginas que no quieras que se indexen. Si quieres que no se indexe ninguna página de la web, puedes ponerlo en la plantilla.

    El código en cuestión es este:

    <meta name = «robots» content = «noindex» />

    También se podría hacer a través del htacces, aunque es mejor que no toques tu solo ese archivo si no tienes mucha idea de cómo hacerlo.

    Te deSEO un buen día,

    William Penguin.

    Artículos Relacionados
    Externalizar el SEO 17/01/2020 Razones para externalizar el SEO de tu empresa

    Muchas empresas trabajan con especialistas SEO en plantilla, personas especializadas en posicionamiento capaces de optimizar la web...

    Squeeze page 15/01/2020 La utilidad de una squeeze page para lograr conversiones

    El concepto de squeeze page es relativamente nuevo en SEO, sin embargo, ya son muchas las webs...

    Optimización web SEO 13/01/2020 Optimización web SEO a largo plazo, ¿qué vas a querer ser en internet?

    La optimización web SEO no es algo que se consiga de un día para otro, de hecho,...

    Deja un comentario

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    1. Avatar Jason dice:

      Hola tengo un problema. mi pagina ha asignado muchisimas URL con .dfr al final, la verdad estoy cansado de este problema, reconstruí mi sitio WEB pero sigue dando estos problemas y google sigue indexando estas páginas, a pesar de haber corregido mi sitemap y mi robots.txt, podrias ayudarme?

      1. Hola,Jason, tendríamos que hacer una auditoria de tu sitio web. Llámanos y cuéntanos tu problema.