El archivo robots.txt indica a los motores de búsqueda qué partes de tu sitio pueden rastrear. Una configuración incorrecta puede bloquear el indexado de tu contenido o exponer áreas sensibles.
¿Qué es Robots.txt?
El robots.txt es un archivo de texto ubicado en la raíz de tu sitio (tudominio.com/robots.txt) que da instrucciones a los robots de búsqueda (crawlers).
Funciones principales
- ✅ Indicar qué URLs pueden rastrear
- ✅ Bloquear acceso a carpetas específicas
- ✅ Señalar la ubicación del sitemap
- ✅ Controlar la frecuencia de rastreo (crawl-delay)
Importante entender
- ⚠️ robots.txt es una sugerencia, no una orden
- ⚠️ Los bots maliciosos pueden ignorarlo
- ⚠️ No es un método de seguridad
- ⚠️ Bloquear no elimina URLs ya indexadas
Sintaxis Básica
Directivas principales
| Directiva | Función |
|---|---|
User-agent: | Especifica a qué bot se aplican las reglas |
Disallow: | Bloquea acceso a una ruta |
Allow: | Permite acceso (dentro de un Disallow) |
Sitemap: | Ubicación del sitemap XML |
Crawl-delay: | Segundos entre peticiones (no todos los bots lo respetan) |
Ejemplos de sintaxis
# Permitir todo a todos los bots
User-agent: *
Allow: /
# Bloquear una carpeta específica
User-agent: *
Disallow: /carpeta-privada/
# Bloquear solo a un bot específico
User-agent: AhrefsBot
Disallow: /
# Bloquear todo el sitio
User-agent: *
Disallow: /
# Indicar sitemap
Sitemap: https://tudominio.com/sitemap_index.xml
Comodines
*- Cualquier secuencia de caracteres$- Fin de la URL
# Bloquear todos los PDF
Disallow: /*.pdf$
# Bloquear URLs con parámetros
Disallow: /*?*
Robots.txt en WordPress
Robots.txt virtual
WordPress genera un robots.txt virtual si no existe uno físico:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Opción "Visibilidad en buscadores"
En Ajustes → Lectura hay una opción "Disuadir a los motores de búsqueda de indexar este sitio". Si está marcada, el robots.txt incluye:
User-agent: *
Disallow: /
Configuración Recomendada
Robots.txt óptimo para WordPress
# Robots.txt para WordPress
User-agent: *
Allow: /
# Bloquear carpetas de sistema
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt
# Bloquear parámetros de búsqueda
Disallow: /?s=
Disallow: /search/
# Bloquear feeds (opcional)
# Disallow: /feed/
# Disallow: /comments/feed/
# Bloquear páginas de autor (opcional)
# Disallow: /author/
# Bloquear archivos por fecha (opcional)
# Disallow: /2024/
# Disallow: /2025/
# Sitemap
Sitemap: https://tudominio.com/sitemap_index.xml
Para tiendas WooCommerce
# Adicional para WooCommerce
Disallow: /carrito/
Disallow: /finalizar-compra/
Disallow: /mi-cuenta/
Disallow: /*?add-to-cart=*
Disallow: /*?orderby=*
Disallow: /*?filter_*
Bloquear bots problemáticos
# Bloquear bots que consumen recursos
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
Cómo Editar Robots.txt
Método 1: Plugins SEO
Rank Math
- Ve a Rank Math → Ajustes generales → Editar robots.txt
- Edita el contenido
- Guarda cambios
Yoast SEO
- Ve a SEO → Herramientas → Editor de archivos
- Edita robots.txt
- Guarda
Método 2: Archivo físico
- Crea archivo
robots.txten tu ordenador - Añade las directivas deseadas
- Sube por FTP a la raíz del sitio
Método 3: Gestor de archivos del hosting
- Accede al gestor de archivos (cPanel, hPanel)
- Navega a la raíz (public_html)
- Crea o edita robots.txt
Prioridad
Si existe archivo físico, tiene prioridad sobre el virtual de WordPress.
Errores Comunes
❌ Error 1: Bloquear todo el sitio
# MAL - Bloquea indexación completa
User-agent: *
Disallow: /
Resultado: Google no puede rastrear nada.
❌ Error 2: Bloquear CSS y JS
# MAL - Google necesita renderizar
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Resultado: Google no puede ver tu sitio correctamente.
❌ Error 3: Bloquear imágenes
# MAL - Pierdes Google Images
Disallow: /wp-content/uploads/
❌ Error 4: Usar para ocultar contenido sensible
robots.txt es público. No lo uses para ocultar URLs con información privada. Usa autenticación o noindex.
❌ Error 5: No incluir sitemap
Siempre incluye la directiva Sitemap para facilitar el descubrimiento.
Verificar Configuración
Ver tu robots.txt
Accede directamente a: https://tudominio.com/robots.txt
Google Search Console
- Ve a Google Search Console
- Usa la herramienta Inspección de URLs
- Verifica que tus páginas importantes no estén bloqueadas
Herramienta de prueba de robots.txt
Google tenía una herramienta específica (deprecada). Ahora usa la Inspección de URLs para verificar si una página puede ser rastreada.
Verificar bloqueos
En Search Console → Configuración → Rastreo, puedes ver si hay problemas de acceso.
Preguntas Frecuentes
¿Robots.txt bloquea la indexación?
Robots.txt bloquea el RASTREO, no la indexación. Si una URL está enlazada desde otros sitios, Google puede indexarla aunque esté en Disallow. Para evitar indexación, usa la meta tag noindex.
¿Necesito robots.txt si uso meta noindex?
Son complementarios. noindex evita indexación pero Google debe rastrear la página para verla. Para páginas que no quieres indexar Y ahorrar crawl budget, puedes usar ambos.
¿Cuánto tarda Google en ver cambios en robots.txt?
Google cachea el robots.txt típicamente 24 horas. Los cambios pueden tardar ese tiempo en ser efectivos.
¿Debo bloquear /wp-admin/?
Sí, es recomendable. WordPress ya lo hace por defecto. Asegúrate de permitir admin-ajax.php ya que muchos plugins lo necesitan para funcionalidades frontend.