Robots.txt

El robots.txt es un archivo de texto simple que se encuentra en la raíz de un sitio web y sirve para indicar a los bots de los motores de búsqueda qué partes del sitio pueden o no pueden ser rastreadas. Este archivo es una herramienta clave en la optimización técnica del SEO, ya que permite gestionar el acceso de los rastreadores a determinadas áreas de un sitio, optimizando el uso del Crawl Budget.


¿Cómo funciona el archivo robots.txt?

Cuando un bot, como Googlebot, accede a un sitio web, lo primero que busca es el archivo robots.txt para leer sus directrices. Según las instrucciones especificadas en este archivo, el bot decide qué URLs rastrear y cuáles ignorar. Sin embargo, es importante tener en cuenta que estas directrices no son obligatorias, ya que algunos bots malintencionados pueden ignorarlas.


Estructura básica del archivo robots.txt

El archivo robots.txt utiliza directrices simples para indicar qué agentes de usuario (bots) deben seguir ciertas reglas. Su formato básico incluye:

  1. User-agent:
    • Especifica el bot al que se aplican las directrices.
    • Ejemplo: User-agent: Googlebot.
  2. Disallow:
    • Indica las páginas o carpetas que el bot no debe rastrear.
    • Ejemplo: Disallow: /privado/.
  3. Allow:
    • Permite el rastreo de URLs específicas, incluso dentro de carpetas bloqueadas.
    • Ejemplo: Allow: /publico/archivo.html.
  4. Sitemap:
    • Señala la ubicación del archivo sitemap.xml, lo que facilita la indexación del contenido relevante.
    • Ejemplo: Sitemap: https://www.ejemplo.com/sitemap.xml.

Ejemplo de un archivo robots.txt

plaintext
User-agent: *
Disallow: /carrito/
Disallow: /buscar/
Allow: /blog/
Sitemap: https://www.ejemplo.com/sitemap.xml

Explicación:

  • User-agent: *: Aplica estas reglas a todos los bots.
  • Disallow: /carrito/: Prohíbe el rastreo de la página del carrito de compras.
  • Disallow: /buscar/: Bloquea el acceso a la página de resultados internos de búsqueda.
  • Allow: /blog/: Permite el rastreo del blog.
  • Sitemap: Especifica la ubicación del sitemap para facilitar la indexación.

¿Para qué sirve el robots.txt?

  1. Proteger áreas sensibles:
    • Bloquear páginas privadas, como paneles de administración o datos sensibles.
  2. Optimizar el Crawl Budget:
    • Evitar que los bots gasten recursos rastreando páginas irrelevantes, como resultados de búsqueda internos o filtros de productos.
  3. Evitar contenido duplicado:
    • Bloquear URLs que generan duplicidad, como páginas con parámetros.
  4. Dirigir a los bots hacia contenido relevante:
    • Facilitar el rastreo de las páginas más importantes.

Buenas prácticas al usar robots.txt

  1. No bloquear contenido relevante:
    • Asegúrate de no bloquear páginas que deseas indexar en los motores de búsqueda.
  2. No usar robots.txt para contenido confidencial:
    • Aunque bloquea el rastreo, el contenido aún puede ser accesible si alguien conoce la URL. Usa otras medidas como la autenticación para proteger áreas sensibles.
  3. Actualizar regularmente:
    • Revisa el archivo después de cambios importantes en el sitio para asegurarte de que las directrices siguen siendo válidas.
  4. Probar el archivo:
    • Usa herramientas como Google Search Console para verificar que el robots.txt está configurado correctamente.
  5. Evitar errores de sintaxis:
    • Un error en el archivo puede bloquear por completo el rastreo del sitio.

Diferencias entre robots.txt y la meta etiqueta robots

Robots.txtMeta etiqueta robots
Aplica a todo el sitio o secciones específicas.Se utiliza en páginas individuales.
Se encuentra en la raíz del sitio.Se incluye en el código HTML de una página.
Bloquea el rastreo, pero no la indexación.Puede bloquear tanto el rastreo como la indexación.

Herramientas para gestionar y analizar robots.txt

  1. Google Search Console:
    • Permite probar el archivo robots.txt para identificar errores y ver cómo Google interpreta las directrices.
  2. Screaming Frog:
    • Analiza el impacto del archivo robots.txt en el rastreo de un sitio.
  3. Ahrefs / SEMrush:
    • Ayudan a detectar problemas relacionados con bloqueos innecesarios en el archivo robots.txt.

Errores comunes al usar robots.txt

    1. Bloquear contenido importante:
      • Configurar un Disallow en páginas que deberían ser indexadas, como categorías o productos.
    2. No permitir el rastreo de recursos necesarios:
      • Bloquear CSS o JavaScript puede afectar la forma en que los motores de búsqueda ven y evalúan el sitio.
  1. Confundir rastreo con indexación:
    • Bloquear una página en robots.txt no garantiza que no sea indexada; para ello, utiliza la etiqueta noindex.

Conclusión

El archivo robots.txt es una herramienta esencial para gestionar cómo los bots interactúan con un sitio web, ayudando a proteger contenido irrelevante, optimizar el rastreo y mejorar la eficiencia del SEO. Su configuración correcta es clave para maximizar la visibilidad en los motores de búsqueda y evitar problemas técnicos que puedan afectar el rendimiento del sitio.

Imagen de Javier Pons
Javier Pons

Consultor SEO, marketing digital y diseñador web especialista en WordPress.

Raiola Networks