Cómo proteger tu web del “backlink malicioso” y del rastreo abusivo

En los últimos días, desde nuestros sistemas de monitorización y WAF hemos detectado un patrón cada vez más habitual en múltiples proyectos:
tráfico masivo procedente incluso de rastreadores legítimos como Google o Bing, accediendo de forma compulsiva a URLs con múltiples parámetros de filtrado.

Este comportamiento, lejos de ser inocuo, puede convertirse en un problema serio de rendimiento, SEO e incluso estabilidad.

El problema: navegación facetada fuera de control

En plataformas como PrestaShop, especialmente con módulos como blocklayered o ps_facetedsearch, se generan automáticamente URLs con múltiples combinaciones de filtros:

/224-id-de-categoria-X?q=Marca-X+Marca-Y+Marca-Z+Marca-H+Precio-Y+Formato-Z+Formato-T+Formato-G&page=5

El problema viene cuando:

Existen decenas o cientos de combinaciones posibles
Se generan URLs sin valor SEO real
Y lo más importante:
👉 los bots las rastrean igualmente aunque incluso sus enlaces de filtros estén marcados como noindex, nofollow

Tal y como hemos observado:

ASN de Google (15169) generando múltiples requests por segundo
Variaciones constantes del parámetro q
Paginaciones profundas (page=3, page=6, etc.)
Combinaciones de filtros sin sentido → páginas sin resultados

Esto provoca una especie de “explosión combinatoria” de URLs, que deriva en:

Sobrecarga de CPU y base de datos
Incremento de tiempos de respuesta
Saturación del crawl budget
Dilución del posicionamiento SEO

⚠️ El falso mito: “si es noindex, no pasa nada”

Uno de los errores más comunes es pensar que:

“Si la URL es noindex/nofollow, Google no la rastrea”

Esto es falso.

Google lo deja claro en su propia documentación sobre navegación facetada:

👉 El noindex no evita el rastreo, solo evita la indexación.

Por tanto:

El bot sigue accediendo
Sigue consumiendo recursos
Sigue generando carga

🛡️ Medida clave (y olvidada): cuidar el robots.txt

Aquí entra una de las herramientas más infravaloradas:

👉 El robots.txt

Google recomienda explícitamente bloquear parámetros problemáticos:

User-agent: *
Disallow: /*?q=
Disallow: /*&q=
Disallow: /*page=

Esto permite:

Reducir drásticamente el rastreo innecesario
Evitar combinaciones infinitas de filtros
Proteger el rendimiento del servidor

Y sin embargo, es algo que raramente se implementa correctamente.

🔗 Canonical: imprescindible para no canibalizarte

Otro punto crítico es el uso de:

<link rel="canonical" href="https://example.com/49-alimentar" />

Sin canonical:

Google interpreta cada combinación como una página distinta
Se divide la autoridad SEO
La categoría principal pierde fuerza

En el peor caso:
👉 la propia web compite contra sí misma en buscadores

⏱️ Crawl delay: el gran desaparecido

Otra medida poco utilizada es limitar la frecuencia de rastreo como por ejemplo:

User-agent: *
Crawl-delay: 5

Aunque Google no siempre lo respeta estrictamente, otros bots sí lo hacen, y en conjunto:

Reduce picos de carga
Suaviza el impacto del crawling
Mejora la estabilidad general

💥 El efecto real: rendimiento + SEO + coste

Cuando todo esto se combina:

Bots rastreando miles de URLs inútiles
Queries complejas en base de datos
Páginas sin resultados generadas dinámicamente

El resultado es:

Peor rendimiento
Mayor consumo de recursos
Peor posicionamiento
Infraestructura más cara de mantener

🧠 Conclusión: no es tráfico “bueno”, es tráfico mal gestionado

El problema no es que Google o Bing rastreen tu web.
El problema es qué les estás permitiendo rastrear.

🚀 Cómo te ayudamos desde DEINSER

En DEINSER no solo protegemos infraestructuras, sino que analizamos este tipo de patrones en profundidad:

🔍 Detección de crawling abusivo o ineficiente mediante nuestro WAF
📊 Análisis de URLs problemáticas y parámetros críticos
⚙️ Recomendaciones técnicas coordinadas con equipos de desarrollo y marketing
🛡️ Implementación de medidas de mitigación (reglas WAF, rate limiting, etc.)
📈 Aconsejar mejoras conjuntas de rendimiento, seguridad y SEO

Porque muchas veces, el problema no es un ataque…
👉 es una mala configuración que actúa como tal.

Enlaces de interés

DEINSER

Tráfico masivo desde Facebook (ASN 32934) para entrenamiento de IA: impacto en servidores web

Tráfico masivo desde Facebook (ASN 32934) para entrenamiento de IA: impacto en servidores web

El problema: navegación facetada fuera de control

⚠️ El falso mito: “si es noindex, no pasa nada”

🛡️ Medida clave (y olvidada): cuidar el robots.txt

👉 El robots.txt

🔗 Canonical: imprescindible para no canibalizarte

⏱️ Crawl delay: el gran desaparecido

💥 El efecto real: rendimiento + SEO + coste

🧠 Conclusión: no es tráfico “bueno”, es tráfico mal gestionado

🚀 Cómo te ayudamos desde DEINSER

Enlaces de interés

Tráfico masivo desde Facebook (ASN 32934) para entrenamiento de IA: impacto en servidores web

Explotación de parámetros en módulos de navegación por facetas de PrestaShop: un problema silencioso de rendimiento

Notepad++ sufre un ataque a su sistema de actualizaciones