
Tráfico masivo desde Facebook (ASN 32934) para entrenamiento de IA: impacto en servidores web
12/03/2026Cómo proteger tu web del “backlink malicioso” y del rastreo abusivo
En los últimos días, desde nuestros sistemas de monitorización y WAF hemos detectado un patrón cada vez más habitual en múltiples proyectos:
tráfico masivo procedente incluso de rastreadores legítimos como Google o Bing, accediendo de forma compulsiva a URLs con múltiples parámetros de filtrado.
Este comportamiento, lejos de ser inocuo, puede convertirse en un problema serio de rendimiento, SEO e incluso estabilidad.

El problema: navegación facetada fuera de control
En plataformas como PrestaShop, especialmente con módulos como blocklayered o ps_facetedsearch, se generan automáticamente URLs con múltiples combinaciones de filtros:
/224-id-de-categoria-X?q=Marca-X+Marca-Y+Marca-Z+Marca-H+Precio-Y+Formato-Z+Formato-T+Formato-G&page=5
El problema viene cuando:
- Existen decenas o cientos de combinaciones posibles
- Se generan URLs sin valor SEO real
- Y lo más importante:
👉 los bots las rastrean igualmente aunque incluso sus enlaces de filtros estén marcados comonoindex, nofollow
Tal y como hemos observado:
- ASN de Google (15169) generando múltiples requests por segundo
- Variaciones constantes del parámetro
q - Paginaciones profundas (
page=3,page=6, etc.) - Combinaciones de filtros sin sentido → páginas sin resultados
Esto provoca una especie de “explosión combinatoria” de URLs, que deriva en:
- Sobrecarga de CPU y base de datos
- Incremento de tiempos de respuesta
- Saturación del crawl budget
- Dilución del posicionamiento SEO
⚠️ El falso mito: “si es noindex, no pasa nada”
Uno de los errores más comunes es pensar que:
“Si la URL es noindex/nofollow, Google no la rastrea”
Esto es falso.
Google lo deja claro en su propia documentación sobre navegación facetada:
👉 El noindex no evita el rastreo, solo evita la indexación.
Por tanto:
- El bot sigue accediendo
- Sigue consumiendo recursos
- Sigue generando carga
🛡️ Medida clave (y olvidada): cuidar el robots.txt
Aquí entra una de las herramientas más infravaloradas:
👉 El robots.txt
Google recomienda explícitamente bloquear parámetros problemáticos:
User-agent: *
Disallow: /*?q=
Disallow: /*&q=
Disallow: /*page=
Esto permite:
- Reducir drásticamente el rastreo innecesario
- Evitar combinaciones infinitas de filtros
- Proteger el rendimiento del servidor
Y sin embargo, es algo que raramente se implementa correctamente.
🔗 Canonical: imprescindible para no canibalizarte
Otro punto crítico es el uso de:
<link rel="canonical" href="https://example.com/49-alimentar" />
Sin canonical:
- Google interpreta cada combinación como una página distinta
- Se divide la autoridad SEO
- La categoría principal pierde fuerza
En el peor caso:
👉 la propia web compite contra sí misma en buscadores
⏱️ Crawl delay: el gran desaparecido
Otra medida poco utilizada es limitar la frecuencia de rastreo como por ejemplo:
User-agent: *
Crawl-delay: 5
Aunque Google no siempre lo respeta estrictamente, otros bots sí lo hacen, y en conjunto:
- Reduce picos de carga
- Suaviza el impacto del crawling
- Mejora la estabilidad general
💥 El efecto real: rendimiento + SEO + coste
Cuando todo esto se combina:
- Bots rastreando miles de URLs inútiles
- Queries complejas en base de datos
- Páginas sin resultados generadas dinámicamente
El resultado es:
- Peor rendimiento
- Mayor consumo de recursos
- Peor posicionamiento
- Infraestructura más cara de mantener
🧠 Conclusión: no es tráfico “bueno”, es tráfico mal gestionado
El problema no es que Google o Bing rastreen tu web.
El problema es qué les estás permitiendo rastrear.
🚀 Cómo te ayudamos desde DEINSER
En DEINSER no solo protegemos infraestructuras, sino que analizamos este tipo de patrones en profundidad:
- 🔍 Detección de crawling abusivo o ineficiente mediante nuestro WAF
- 📊 Análisis de URLs problemáticas y parámetros críticos
- ⚙️ Recomendaciones técnicas coordinadas con equipos de desarrollo y marketing
- 🛡️ Implementación de medidas de mitigación (reglas WAF, rate limiting, etc.)
- 📈 Aconsejar mejoras conjuntas de rendimiento, seguridad y SEO
Porque muchas veces, el problema no es un ataque…
👉 es una mala configuración que actúa como tal.
Enlaces de interés
- https://danielcuttridge.medium.com/how-to-build-a-robots-txt-that-improves-crawl-efficiency-and-security-template-included-d800fbb3e9f9
- https://developers.google.com/crawling/docs/crawlers-fetchers/reduce-crawl-rate?hl=es-419
- https://developers.google.com/crawling/docs/faceted-navigation?hl=es-419
- https://developers.google.com/search/docs/crawling-indexing/troubleshoot-crawling-errors?hl=es-419#improve_crawl_efficiency


