¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto plano que se sitúa en el directorio raíz de un sitio web. Su propósito principal es indicar a los «robots» o «rastreadores» de los motores de búsqueda (como Googlebot) qué partes del sitio web no deben rastrear. Es importante entender que robots.txt no bloquea la indexación de una página, solo el rastreo. Si una página está enlazada desde otros sitios, Google podría indexarla incluso si está bloqueada en robots.txt.

Ejemplos de uso de robots.txt

El archivo robots.txt utiliza una sintaxis simple basada en «User-agent» para especificar a qué rastreadores se aplican las reglas y «Disallow» para indicar las rutas que no deben ser rastreadas.

  • Bloquear el acceso a una carpeta específica para todos los rastreadores: User-agent: * Disallow: /privado/ En este ejemplo, cualquier rastreador (* significa todos) tiene prohibido acceder a la carpeta /privado/.
  • Bloquear el acceso a un archivo específico para todos los rastreadores: User-agent: * Disallow: /archivo-secreto.pdf Aquí se impide el rastreo de un archivo PDF específico.
  • Permitir el acceso a todo el sitio web: User-agent: * Disallow: Un Disallow vacío indica que no hay restricciones, permitiendo el rastreo completo del sitio.
  • Bloquear el acceso solo a un rastreador específico: User-agent: Googlebot Disallow: /temporal/ En este caso, solo Googlebot tiene prohibido el acceso a la carpeta /temporal/, mientras que otros rastreadores sí pueden hacerlo.
  • Incluir la ubicación del sitemap: Sitemap: https://www.ejemplo.com/sitemap.xml Aunque no es una directiva de bloqueo, es una práctica común incluir la URL de tu sitemap XML en el robots.txt para ayudar a los motores de búsqueda a encontrar todas las páginas de tu sitio.

¿Por qué es importante robots.txt en SEO?

El robots.txt juega un papel crucial en tu estrategia SEO por varias razones:

  • Control del presupuesto de rastreo: Los motores de búsqueda asignan un «presupuesto de rastreo» a cada sitio web. Al bloquear el rastreo de secciones irrelevantes (páginas de administración, resultados de búsqueda internos, etc.), aseguras que los rastreadores dediquen su presupuesto a tus páginas más importantes y que quieres que se indexen.
  • Evitar la indexación de contenido duplicado o de baja calidad: Si tienes contenido duplicado o páginas con poco valor SEO (como páginas de prueba o áreas de miembros), puedes evitar que los motores de búsqueda las rastreen e indexen, lo que podría diluir la autoridad de tu sitio o generar penalizaciones.
  • Proteger la privacidad de ciertas áreas: Aunque no es un mecanismo de seguridad, el robots.txt puede disuadir a los rastreadores públicos de acceder a directorios o archivos sensibles que no necesitan ser visibles en los resultados de búsqueda.
  • Optimización del rastreo: Al guiar a los rastreadores hacia el contenido relevante, mejoras la eficiencia del rastreo y potencialmente la velocidad con la que tu contenido es descubierto e indexado.

Buenas prácticas para usar el archivo robots.txt

Para asegurarte de que tu archivo robots.txt funcione de manera óptima para tu SEO, considera estas buenas prácticas:

  • Ubícalo correctamente: El archivo robots.txt siempre debe estar en el directorio raíz de tu dominio (ej. https://www.ejemplo.com/robots.txt).
  • No lo uses para la seguridad: Recuerda que robots.txt no es un mecanismo de seguridad. La información que bloqueas del rastreo aún podría ser accesible directamente o por otros medios. Si necesitas proteger información sensible, usa autenticación o otras medidas de seguridad.
  • Sé específico con las directivas: Asegúrate de que tus directivas Disallow sean lo suficientemente específicas para evitar bloquear contenido importante por accidente.
    • Permite el acceso a los archivos CSS y JavaScript: Los motores de búsqueda necesitan rastrear estos archivos para entender cómo se ve y funciona tu página. Si los bloqueas, podrían tener dificultades para renderizar tu sitio correctamente y afectar tu ranking.
  • Prueba tu archivo robots.txt:
    • Herramienta de prueba de robots.txt de Google Search Console: Utiliza esta herramienta para verificar si tu archivo está bloqueando URLs que no pretendes bloquear o si hay errores de sintaxis.
  • Incluye tu Sitemap:
    • Directiva Sitemap: Añade la línea Sitemap: https://www.xml-sitemaps.com/ al final de tu archivo robots.txt para ayudar a los motores de búsqueda a descubrir todas las páginas que deseas que indexen.
  • Mantén un registro de cambios: Es útil llevar un control de las modificaciones que realizas en tu robots.txt para poder revertir cambios si es necesario o entender el impacto de las directivas a lo largo del tiempo.
  • Evita bloquear contenido que ya está indexado: Si bloqueas con robots.txt una página que ya está indexada, esta podría seguir apareciendo en los resultados de búsqueda, pero sin descripción y con un mensaje indicando que el rastreo ha sido bloqueado. Para desindexar una página, usa la meta etiqueta noindex o la herramienta de eliminación de URL de Google Search Console.

Mi opinión profesional: más allá del control de rastreo

Es importante revisar la existencia y el contenido del archivo robots.txt. Un archivo robots.txt mal configurado puede bloquear inadvertidamente contenido importante de una web.