¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto plano que se sitúa en el directorio raíz de un sitio web. Su propósito principal es indicar a los «robots» o «rastreadores» de los motores de búsqueda (como Googlebot) qué partes del sitio web no deben rastrear. Es importante entender que robots.txt no bloquea la indexación de una página, solo el rastreo. Si una página está enlazada desde otros sitios, Google podría indexarla incluso si está bloqueada en robots.txt.
Ejemplos de uso de robots.txt
El archivo robots.txt utiliza una sintaxis simple basada en «User-agent» para especificar a qué rastreadores se aplican las reglas y «Disallow» para indicar las rutas que no deben ser rastreadas.
- Bloquear el acceso a una carpeta específica para todos los rastreadores:
User-agent: * Disallow: /privado/En este ejemplo, cualquier rastreador (*significa todos) tiene prohibido acceder a la carpeta/privado/. - Bloquear el acceso a un archivo específico para todos los rastreadores:
User-agent: * Disallow: /archivo-secreto.pdfAquí se impide el rastreo de un archivo PDF específico. - Permitir el acceso a todo el sitio web:
User-agent: * Disallow:UnDisallowvacío indica que no hay restricciones, permitiendo el rastreo completo del sitio. - Bloquear el acceso solo a un rastreador específico:
User-agent: Googlebot Disallow: /temporal/En este caso, solo Googlebot tiene prohibido el acceso a la carpeta/temporal/, mientras que otros rastreadores sí pueden hacerlo. - Incluir la ubicación del sitemap:
Sitemap: https://www.ejemplo.com/sitemap.xmlAunque no es una directiva de bloqueo, es una práctica común incluir la URL de tu sitemap XML en elrobots.txtpara ayudar a los motores de búsqueda a encontrar todas las páginas de tu sitio.
¿Por qué es importante robots.txt en SEO?
El robots.txt juega un papel crucial en tu estrategia SEO por varias razones:
- Control del presupuesto de rastreo: Los motores de búsqueda asignan un «presupuesto de rastreo» a cada sitio web. Al bloquear el rastreo de secciones irrelevantes (páginas de administración, resultados de búsqueda internos, etc.), aseguras que los rastreadores dediquen su presupuesto a tus páginas más importantes y que quieres que se indexen.
- Evitar la indexación de contenido duplicado o de baja calidad: Si tienes contenido duplicado o páginas con poco valor SEO (como páginas de prueba o áreas de miembros), puedes evitar que los motores de búsqueda las rastreen e indexen, lo que podría diluir la autoridad de tu sitio o generar penalizaciones.
- Proteger la privacidad de ciertas áreas: Aunque no es un mecanismo de seguridad, el
robots.txtpuede disuadir a los rastreadores públicos de acceder a directorios o archivos sensibles que no necesitan ser visibles en los resultados de búsqueda. - Optimización del rastreo: Al guiar a los rastreadores hacia el contenido relevante, mejoras la eficiencia del rastreo y potencialmente la velocidad con la que tu contenido es descubierto e indexado.
Buenas prácticas para usar el archivo robots.txt
Para asegurarte de que tu archivo robots.txt funcione de manera óptima para tu SEO, considera estas buenas prácticas:
- Ubícalo correctamente: El archivo
robots.txtsiempre debe estar en el directorio raíz de tu dominio (ej.https://www.ejemplo.com/robots.txt). - No lo uses para la seguridad: Recuerda que
robots.txtno es un mecanismo de seguridad. La información que bloqueas del rastreo aún podría ser accesible directamente o por otros medios. Si necesitas proteger información sensible, usa autenticación o otras medidas de seguridad. - Sé específico con las directivas: Asegúrate de que tus directivas
Disallowsean lo suficientemente específicas para evitar bloquear contenido importante por accidente.- Permite el acceso a los archivos CSS y JavaScript: Los motores de búsqueda necesitan rastrear estos archivos para entender cómo se ve y funciona tu página. Si los bloqueas, podrían tener dificultades para renderizar tu sitio correctamente y afectar tu ranking.
- Prueba tu archivo
robots.txt:- Herramienta de prueba de
robots.txtde Google Search Console: Utiliza esta herramienta para verificar si tu archivo está bloqueando URLs que no pretendes bloquear o si hay errores de sintaxis.
- Herramienta de prueba de
- Incluye tu Sitemap:
- Directiva
Sitemap: Añade la líneaSitemap: https://www.xml-sitemaps.com/al final de tu archivorobots.txtpara ayudar a los motores de búsqueda a descubrir todas las páginas que deseas que indexen.
- Directiva
- Mantén un registro de cambios: Es útil llevar un control de las modificaciones que realizas en tu
robots.txtpara poder revertir cambios si es necesario o entender el impacto de las directivas a lo largo del tiempo. - Evita bloquear contenido que ya está indexado: Si bloqueas con
robots.txtuna página que ya está indexada, esta podría seguir apareciendo en los resultados de búsqueda, pero sin descripción y con un mensaje indicando que el rastreo ha sido bloqueado. Para desindexar una página, usa la meta etiquetanoindexo la herramienta de eliminación de URL de Google Search Console.
Mi opinión profesional: más allá del control de rastreo
Es importante revisar la existencia y el contenido del archivo robots.txt. Un archivo robots.txt mal configurado puede bloquear inadvertidamente contenido importante de una web.