El Sitemap.xml es un archivo en formato XML que actúa como un mapa del sitio para los motores de búsqueda, detallando todas las URL importantes de una página web. A diferencia de los sitemaps tradicionales, que sirven como guía de navegación para los usuarios, el Sitemap.xml está diseñado específicamente para los bots de los motores de búsqueda, como Googlebot, Bingbot, entre otros. Su objetivo es ayudar a estos bots a rastrear e indexar el contenido de manera eficiente y precisa.
Elementos clave de un Sitemap.xml
URL
Es el elemento central de un Sitemap.xml y especifica la dirección de una página web.
Ejemplo:
<url>
<loc>https://www.ejemplo.com/pagina1</loc>
</url>
Última modificación (lastmod)
Indica cuándo fue la última vez que se actualizó una página específica, lo que es útil para los motores de búsqueda al priorizar contenido actualizado.
[Google usa este elemento si la fecha indicada es precisa y fiable. Esto se verifica comparando, por ejemplo, con la última modificación de la página]
Ejemplo:
<lastmod>2023-10-01</lastmod>
Frecuencia de cambios (changefreq)
Este elemento sugiere con qué frecuencia es probable que cambie el contenido de la página, como «diario», «semanal», «mensual», etc. Ayuda a los motores de búsqueda a saber cuándo deberían volver a rastrear la página. El elemento de frecuencia estimada se debe expresar en inglés y puede ser: always
, hourly
, daily
, weekly
, monthly
, yearly
o never
.
[Google ignora este elemento, pero puede ser útil para otros motores de búsqueda como Bing]
Ejemplo:
<changefreq>daily</changefreq>
Prioridad (priority)
Un valor entre 0.0 y 1.0 que indica la importancia relativa de una página en comparación con otras del mismo sitio. Aunque este valor no garantiza una posición específica en los resultados de búsqueda, sí proporciona una indicación sobre la relevancia del contenido.
[Google también ignora este elemento, igual que el elemento changefreq]
Ejemplo:
<priority>0.8</priority>
Ejemplo de sitemap con estos atributos
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<!-- Página de inicio -->
<url>
<loc>https://www.ejemplo.com/</loc>
<lastmod>2024-10-01</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<!-- Página de Servicios -->
<url>
<loc>https://www.ejemplo.com/servicios</loc>
<lastmod>2024-09-20</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
<!-- Página de Contacto -->
<url>
<loc>https://www.ejemplo.com/contacto</loc>
<lastmod>2024-08-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.5</priority>
</url>
<!-- Página de Blog -->
<url>
<loc>https://www.ejemplo.com/blog</loc>
<lastmod>2024-10-03</lastmod>
<changefreq>daily</changefreq>
<priority>0.7</priority>
</url>
<!-- Entrada individual del blog -->
<url>
<loc>https://www.ejemplo.com/blog/entrada1</loc>
<lastmod>2024-10-02</lastmod>
<changefreq>never</changefreq>
<priority>0.6</priority>
</url>
<!-- Otra entrada del blog -->
<url>
<loc>https://www.ejemplo.com/blog/entrada2</loc>
<lastmod>2024-09-29</lastmod>
<changefreq>never</changefreq>
<priority>0.6</priority>
</url>
</urlset>
¿Por qué es importante el Sitemap.xml para el SEO?
- Facilita la indexación: Los motores de búsqueda usan crawlers o bots que recorren la web para descubrir contenido nuevo o actualizado. Si bien estos bots son eficientes, no siempre pueden encontrar todas las páginas de un sitio, especialmente si es muy grande o tiene una estructura compleja. Un Sitemap.xml asegura que todas las páginas importantes se notifiquen a los motores de búsqueda, incluso si algunas no están bien enlazadas internamente.
- Optimiza el rastreo en sitios grandes: Los sitios web con miles de páginas o tiendas en línea con catálogos extensos pueden ser difíciles de rastrear completamente. Un Sitemap.xml puede priorizar qué páginas deben rastrearse primero, lo que es útil cuando los crawlers tienen un presupuesto de rastreo limitado. Esto es conocido como el crawl budget, que determina cuántas páginas de un sitio web puede rastrear un motor de búsqueda en un período determinado.
- Soporte para contenido multimedia y especializado: Los sitemaps no solo pueden incluir páginas HTML, también pueden enumerar otros tipos de contenido como imágenes, videos, o incluso contenido de noticias (en el caso de Google News). Esto es crucial para sitios que dependen del tráfico de imágenes o videos, ya que permite que este tipo de contenido sea indexado correctamente.
- Mejora la transparencia para los motores de búsqueda: Al proporcionar detalles sobre la actualización de las páginas (lastmod) y su frecuencia de cambio (changefreq), los Sitemaps.xml aseguran que los motores de búsqueda mantengan un índice actualizado de su contenido, lo que puede resultar en una mejor clasificación de páginas relevantes.
¿Cuándo es necesario un Sitemap.xml?
Aunque un Sitemap.xml puede beneficiar prácticamente cualquier sitio web, es especialmente crucial en los siguientes casos:
- Sitios web grandes: Los sitios con miles de páginas pueden dificultar que los bots rastreen todo el contenido. El Sitemap.xml facilita la priorización y rastreo adecuado de las páginas clave.
- Sitios con contenido no indexado fácilmente: Si un sitio tiene páginas con pocas referencias internas o URLs que no están bien enlazadas desde otras páginas, es posible que los motores de búsqueda no las descubran sin un sitemap.
- Sitios web nuevos: Los sitios recién creados con pocos enlaces externos pueden beneficiarse de un sitemap para que los motores de búsqueda descubran e indexen su contenido más rápido.
- Sitios con actualizaciones frecuentes: Si tu sitio publica contenido regularmente, como blogs, noticias, o actualizaciones de productos, un sitemap ayuda a los motores de búsqueda a priorizar el rastreo de nuevas publicaciones.
¿Para no indexar una URL basta con eliminarla del sitemap?
No, al eliminarla del sitemap simplemente consigues dificultar el descubrimiento y rastreo de una URL, pero no evitas que esta se indexe. Para esto, debes añadir la regla HTML <meta name=»robots» content=»noindex»>. Recuerda que una directiva de bloque en el robots.txt tampoco evita la indexación de URLs no deseadas.