El archivo robots.txt indica a los motores de búsqueda qué partes de tu sitio pueden rastrear. Una configuración incorrecta puede bloquear el indexado de tu contenido o exponer áreas sensibles.

¿Qué es Robots.txt?

El robots.txt es un archivo de texto ubicado en la raíz de tu sitio (tudominio.com/robots.txt) que da instrucciones a los robots de búsqueda (crawlers).

Funciones principales

  • ✅ Indicar qué URLs pueden rastrear
  • ✅ Bloquear acceso a carpetas específicas
  • ✅ Señalar la ubicación del sitemap
  • ✅ Controlar la frecuencia de rastreo (crawl-delay)

Importante entender

  • ⚠️ robots.txt es una sugerencia, no una orden
  • ⚠️ Los bots maliciosos pueden ignorarlo
  • ⚠️ No es un método de seguridad
  • ⚠️ Bloquear no elimina URLs ya indexadas

Sintaxis Básica

Directivas principales

DirectivaFunción
User-agent:Especifica a qué bot se aplican las reglas
Disallow:Bloquea acceso a una ruta
Allow:Permite acceso (dentro de un Disallow)
Sitemap:Ubicación del sitemap XML
Crawl-delay:Segundos entre peticiones (no todos los bots lo respetan)

Ejemplos de sintaxis

# Permitir todo a todos los bots
User-agent: *
Allow: /

# Bloquear una carpeta específica
User-agent: *
Disallow: /carpeta-privada/

# Bloquear solo a un bot específico
User-agent: AhrefsBot
Disallow: /

# Bloquear todo el sitio
User-agent: *
Disallow: /

# Indicar sitemap
Sitemap: https://tudominio.com/sitemap_index.xml

Comodines

  • * - Cualquier secuencia de caracteres
  • $ - Fin de la URL
# Bloquear todos los PDF
Disallow: /*.pdf$

# Bloquear URLs con parámetros
Disallow: /*?*

Robots.txt en WordPress

Robots.txt virtual

WordPress genera un robots.txt virtual si no existe uno físico:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Opción "Visibilidad en buscadores"

En Ajustes → Lectura hay una opción "Disuadir a los motores de búsqueda de indexar este sitio". Si está marcada, el robots.txt incluye:

User-agent: *
Disallow: /
⚠️ Cuidado: Esta opción bloquea TODO el sitio. Solo úsala durante desarrollo. Muchos olvidan desmarcarla al lanzar.

Configuración Recomendada

Robots.txt óptimo para WordPress

# Robots.txt para WordPress
User-agent: *
Allow: /

# Bloquear carpetas de sistema
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /readme.html
Disallow: /license.txt

# Bloquear parámetros de búsqueda
Disallow: /?s=
Disallow: /search/

# Bloquear feeds (opcional)
# Disallow: /feed/
# Disallow: /comments/feed/

# Bloquear páginas de autor (opcional)
# Disallow: /author/

# Bloquear archivos por fecha (opcional)
# Disallow: /2024/
# Disallow: /2025/

# Sitemap
Sitemap: https://tudominio.com/sitemap_index.xml

Para tiendas WooCommerce

# Adicional para WooCommerce
Disallow: /carrito/
Disallow: /finalizar-compra/
Disallow: /mi-cuenta/
Disallow: /*?add-to-cart=*
Disallow: /*?orderby=*
Disallow: /*?filter_*

Bloquear bots problemáticos

# Bloquear bots que consumen recursos
User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: DotBot
Disallow: /

User-agent: MJ12bot
Disallow: /

Cómo Editar Robots.txt

Método 1: Plugins SEO

Rank Math

  1. Ve a Rank Math → Ajustes generales → Editar robots.txt
  2. Edita el contenido
  3. Guarda cambios

Yoast SEO

  1. Ve a SEO → Herramientas → Editor de archivos
  2. Edita robots.txt
  3. Guarda

Método 2: Archivo físico

  1. Crea archivo robots.txt en tu ordenador
  2. Añade las directivas deseadas
  3. Sube por FTP a la raíz del sitio

Método 3: Gestor de archivos del hosting

  1. Accede al gestor de archivos (cPanel, hPanel)
  2. Navega a la raíz (public_html)
  3. Crea o edita robots.txt

Prioridad

Si existe archivo físico, tiene prioridad sobre el virtual de WordPress.

Errores Comunes

❌ Error 1: Bloquear todo el sitio

# MAL - Bloquea indexación completa
User-agent: *
Disallow: /

Resultado: Google no puede rastrear nada.

❌ Error 2: Bloquear CSS y JS

# MAL - Google necesita renderizar
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/

Resultado: Google no puede ver tu sitio correctamente.

❌ Error 3: Bloquear imágenes

# MAL - Pierdes Google Images
Disallow: /wp-content/uploads/

❌ Error 4: Usar para ocultar contenido sensible

robots.txt es público. No lo uses para ocultar URLs con información privada. Usa autenticación o noindex.

❌ Error 5: No incluir sitemap

Siempre incluye la directiva Sitemap para facilitar el descubrimiento.

Verificar Configuración

Ver tu robots.txt

Accede directamente a: https://tudominio.com/robots.txt

Google Search Console

  1. Ve a Google Search Console
  2. Usa la herramienta Inspección de URLs
  3. Verifica que tus páginas importantes no estén bloqueadas

Herramienta de prueba de robots.txt

Google tenía una herramienta específica (deprecada). Ahora usa la Inspección de URLs para verificar si una página puede ser rastreada.

Verificar bloqueos

En Search Console → Configuración → Rastreo, puedes ver si hay problemas de acceso.

Preguntas Frecuentes

¿Robots.txt bloquea la indexación?

Robots.txt bloquea el RASTREO, no la indexación. Si una URL está enlazada desde otros sitios, Google puede indexarla aunque esté en Disallow. Para evitar indexación, usa la meta tag noindex.

¿Necesito robots.txt si uso meta noindex?

Son complementarios. noindex evita indexación pero Google debe rastrear la página para verla. Para páginas que no quieres indexar Y ahorrar crawl budget, puedes usar ambos.

¿Cuánto tarda Google en ver cambios en robots.txt?

Google cachea el robots.txt típicamente 24 horas. Los cambios pueden tardar ese tiempo en ser efectivos.

¿Debo bloquear /wp-admin/?

Sí, es recomendable. WordPress ya lo hace por defecto. Asegúrate de permitir admin-ajax.php ya que muchos plugins lo necesitan para funcionalidades frontend.

Artículos Relacionados

Compartir: