Cómo usar noindex y robots.txt para controlar la indexación web

Cómo usar noindex y robots.txt para controlar la indexación web

Tabla de contenidos

Decidir qué partes de tu web se muestran o esconden en los resultados de Google es casi como tener el control remoto del SEO y de la experiencia de tus visitantes. Aquí es donde entran en juego dos piezas fundamentales: la etiqueta noindex y el archiconocido archivo robots.txt. Sí, ambos andan supervisando lo que los motores de búsqueda pueden hacer en tu web, pero casi nunca hacen el mismo trabajo. Usarlos mal puede meter la pata de una manera dolorosa. Imagina proteger contenido valioso… pero esconderlo sin querer, o justo lo contrario: dejar a la vista lo que sería mejor mantener en secreto. Por eso, comprender quién hace qué y cuándo usar cada herramienta es vital si no quieres quedarte fuera del radar digital o, peor aún, exponerlo todo sin querer.

¿Qué herramienta debo usar: noindex o robots.txt?

En esto del SEO técnico, la confusión suele estar a la orden del día. Mucha gente se pregunta: ¿Noindex o robots.txt? La respuesta depende, sobre todo, de tu intención real: ¿quieres que una página nunca salga listada en Google o solo buscas controlar el acceso de los robots a tu web? Y es sorprendente la cantidad de webs que todavía mezclan ambas cosas y caen en el mismo error básico.

Para simplificarlo un poco, robots.txt es ese guardia de seguridad que dice si los rastreadores pueden siquiera mirar una página, mientras que noindex es la señal de “prohibido publicar” aunque el bot ya esté dentro. Primero, el robot echa un vistazo rápido al robots.txt para ver si puede pasar. Si es así, se cuela, hace lo suyo y (solo entonces) puede leer la etiqueta noindex y decidir si lleva o no esa página al gran archivo de resultados.

Como resumen visual que siempre viene bien para salir de dudas, aquí tienes una tabla con los puntos más importantes:

CaracterísticaEtiqueta noindexArchivo robots.txt (con Disallow)
Propósito principalEvita que la página se muestre en los resultados de búsqueda.Impedir que ciertos bots naveguen una página o carpeta (pero no garantiza que no aparezcan en resultados).
Cómo funcionaEl bot necesita poder visitar la página para ver la directiva.Al negar el acceso, el bot ni siquiera puede leer el contenido.
Efecto en la indexaciónAsegura que la página quede fuera del índice de Google.No lo asegura. Si hay enlaces externos, puede acabar indexada igualmente.
Cuándo usarlaEn páginas de confirmación, resultados de búsquedas internas, lugares duplicados o zonas privadas que no deberían difundirse.Para decirle a los bots que no gasten tiempo en recursos que no sirven, como imágenes o scripts de poca utilidad.

No hay mucha vuelta que darle: si de verdad no quieres ni rastro de una página en Google, mejor apóyate en la etiqueta noindex y tendrás mucho más control.

Cómo impedir que Google indexe una página con la etiqueta noindex

Si hay una necesidad directa de eliminar rastros de una página en los buscadores, la vía más sencilla (y efectiva de verdad) es usar la metaetiqueta noindex. Este mensaje deja bien claro a los robots que, aunque pueden entrar y curiosear, no deben compartir esa página en el índice público de resultados.

¿Cómo se implementa la etiqueta noindex?

Puedes hacerlo poniéndola dentro de la etiqueta <head> en el HTML de la propia página que necesitas ocultar. ¿Fácil, verdad? Aquí te va la forma estándar:

<meta name="robots" content="noindex">

Realmente es importante dejar esta línea en la parte superior de <head> para que los bots lo detecten lo antes posible, casi como ponerle un post-it en la puerta de entrada.

¿No sabes como ver el código fuente de tu web? Aquí te lo enseñamos.

¿Puedo combinar noindex con otras directivas?

Claro que sí. Para quien quiera hilar aún más fino, se pueden sumar más instrucciones. La más popular es juntarla con nofollow para que los bots además de no indexar, no sigan ningún enlace que detectan ahí dentro.

<meta name="robots" content="noindex, nofollow">

No está de más conocer otras etiquetas útiles:

  • noarchive: No permite que busquen versiones guardadas de la página.
  • nosnippet: Impide que Google muestre fragmentos de texto o vídeo bajo el resultado.
  • noimageindex: Evita que se indexen imágenes incluidas en esa página.

¿Y si el archivo no es HTML?

En los casos de PDFs, imágenes o cualquier archivo nada amigable para sumar etiquetas HTML, la jugada se pasa a las cabeceras HTTP. Basta con configurar la respuesta del servidor usando la instrucción X-Robots-Tag: noindex y asunto resuelto.

X-Robots-Tag: noindex

Importante: ojo, jamás combines noindex en una página que has bloqueado antes en el robots.txt. Si lo haces, los bots nunca podrán ver la etiqueta y podrías acabar con la página indexada igualmente. Más de uno se lleva ese disgusto por confundir los pasos.

Cómo guiar a los rastreadores con el archivo robots.txt

El archivo robots.txt funciona como esa persona estricta en la puerta que decide a quién deja entrar y a quién no. Es solo un texto muy sencillo, pero a la vez crucial: a través de él puedes orientar a los robots sobre por dónde deben (o no deben) navegar dentro de tu web. ¿Su foco real? Gestionar en qué parte del sitio gastarán tiempo los robots, no determinar al 100% qué se muestra en Google.

¿Dónde se coloca y cuál es su sintaxis?

Su sitio de residencia siempre es la raíz del dominio, nunca otro lugar, y su formato es tan básico que se aprende en un café:

  1. User-agent: A quién va dirigida la orden (puede ser Googlebot, Bingbot o * para todos).
  2. Disallow: Marca la carpeta o archivo prohibido. Con simplemente una barra (/) bloqueas toda la web.
  3. Allow: Si quieres dejar algún resquicio, puedes permitir que algo concreto sí sea rastreado pese a reglas generales.
  4. Sitemap: Si lo añades, los bots sabrán inmediatamente dónde mirar para encontrar el mapa de todo tu sitio.

Ejemplos de uso

  • Permitir el rastreo completo a todos los bots: User-agent: *Disallow:
  • Bloquear una carpeta específica para todos los bots: User-agent: *Disallow: /privado/
  • Bloquear un tipo de archivo: User-agent: *Disallow: /*.jpg$
  • Incluir la ubicación del sitemap: Sitemap: https://www.tusitio.com/sitemap.xml

Algo fundamental que conviene recordar: Crawl-delay y Noindex en robots.txt no funcionan con Google. A veces nos empeñamos, pero no hay manera.

¿Cómo puedo verificar que mis directivas funcionan correctamente?

Implementar directivas es sólo el principio; el verdadero secreto está en comprobar que todo está cumpliéndose tal como esperas. Por suerte, Google Search Console te lo pone bastante fácil si quieres hacerlo bien.

Para validar el archivo robots.txt

  1. Accede a la sección de la prueba de robots.txt dentro de Google Search Console.
  2. La herramienta te enseñará el contenido actual de tu archivo robots.txt al instante.
  3. Prueba a introducir una URL concreta de tu web para ver si le has cerrado o abierto la puerta a Googlebot.
  4. Te ayudará a detectar exactamente la línea que está causando el bloqueo o que está dando vía libre.

Para verificar una etiqueta noindex

  1. Abre la herramienta de inspección de URLs también en Google Search Console.
  2. Pega en ella la dirección que incluye la dichosa etiqueta noindex.
  3. Mira el informe de cobertura. Si está bien puesto, verás un aviso en el que se confirma que la página ha sido excluida del índice gracias a noindex.

Estos chequeos pueden parecer un poquito pesados, pero evitan sorpresas bastante desagradables como perder tráfico o, peor, mostrar lo que no se debería mostrar en buscadores.

Saber cuándo y cómo emplear noindex y robots.txt te da muchísimo margen para decidir cómo te ve Google. Si robots.txt actúa como el portero severo, la etiqueta noindex es quien da la orden final sobre si una página entra en el salón de la fama del buscador o se queda fuera. Entender bien estas diferencias casi siempre marca el éxito en la estrategia SEO de cualquier sitio.

Separar y usar de forma clara ambas herramientas te permite centrar tus recursos en lo que realmente importa, mantener el foco en el contenido más valioso y asegurarte de que solo lo que tú decides llegue a los resultados públicos. Y, por cierto, ese pequeño esfuerzo también protege la privacidad y ayuda a que el usuario que te visita solo vea lo que de verdad le interesa. Así, todo el mundo sale ganando: tú, tus usuarios y hasta los robots.

Facebook
X
LinkedIn
Email
WhatsApp
Telegram
Picture of Roberto Cano - CEO Rankerss
Roberto Cano - CEO Rankerss
Te ayudo a convertir tus visitas en Ventas y a empezar a Generar Negocio con Tu web mediante estrategias de Marketing Digital y automatizaciones de IA