Directiva NoIndex VS Robots.txt ¿Cómo bloquear la indexación?
5 (100%) 1 vote

Entre los webmasters, la directiva Robots.txt NoIndex es poco conocida y menos usada. Más que nada, porque muy poca gente habla de ella, desde que Matt Cutts discutió el soporte que Google daba a esta directiva en una fecha tan lejana como el 2008. Un poco más recientemente, el representante de Google John Mueller discutió sobre ella en su cuenta de Google Hangout y Deepcrawl habló de ella en su blog, por lo que me pareció interesante traerla al blog.

Esta directiva tiene posibilidades únicas para mejorar el SEO de tu página, que merecen un análisis profundo. Pero vayamos primero a lo básico.

¿Qué es Robots.txt?

No es más que un archivo de texto colocado en la raíz de la web que dice a los buscadores cómo debe interactuar con el contenido recogido en el sitio. Esto incluye las URLs que puede indexar y cuales URLs no. Se le conoce también como estándar de exclusión de robots.

Aquí puedes ver mi archivo robots.txt que le he dado un toque creativo.

Por defecto, de no existir Robots.txt, los buscadores indexarán todo el contenido de la página. A los efectos del SEO esto no es lo que deseamos, porque hay páginas que simplemente no nos interesa que estén disponibles para la búsqueda y otras que francamente pueden ser perniciosas para un buen posicionamiento. También podemos evitar con este simple procedimiento que se indexen imágenes o scripts que no queremos que se hagan públicos.

Recuerda que mientras más páginas tengan que rastrear el buscador, menos tiempo tardará. Esto influye en cierta manera positivamente en tu ranking, mientras le indique cuales son las páginas valiosas y que debe rastrear.

La principal desventaja de este protocolo es su carácter consultivo. O sea, al utilizarlo confiamos que los robots cooperarán con el sitio Web, pero esto no garantiza un aislamiento completo. Una página, aunque no esté indexada, no es invisible. Si se escribe su dirección directamente en un navegador o se coloca el vínculo en otra página del sitio, será igualmente accesible.

¿Cuál es la función de la directiva NoIndex?

Dentro del robots.txt, la directiva NoIndex nos permite desindexar ciertas páginas para que estas no aparezcan en los buscadores. Esto se realiza para eliminar de las búsquedas páginas con poco contenido o que no son útiles o relevantes para los clientes, como urls compuestas por filtros, acciones temporales, páginas de política de privacidad…etc.

Cabe destacar que esto representa un tesoro expuesto a la vista para los webmasters que deseen mejorar el SEO de sus sitios y no es precisamente del dominio público, pero si se utiliza bien puede cambiar drásticamente el comportamiento de un sitio de cara a los buscadores.

Un resultado similar puede ser obtenido con la directiva Disallow. La ventaja del NoIndex radica en que la página no se indexa, pero sí se rastrean sus enlaces para traspasar autoridad. Normalmente, se emplean ambas directivas para garantizar que partes del contenido de tu sitio no se indexen.

¿Por qué dejar fuera páginas del sitio mejorará tu SEO?

Cuando una página nace en un subdirectorio que ya está vedado a los buscadores por el disallow, nunca se indexará. Esto es lógico, pues estamos negando su acceso y su inspección desde antes de crearla.  No obstante, cuando una página está creada e indexada, si la ponemos bajo la sombrilla del disallow nada garantiza que el buscador la saque de su índice: sencillamente, se queda con la última versión que logró recoger.

Ahora bien, gracias a Robots.txt NoIndex se le pide al buscador que no indexe la página, y además que la retire de su base de datos. Aunque esto no se realiza de forma automática, como veremos más adelante, si constituye una verdadera herramienta de oro para el SEO.

La diferencia la marca uno de los parámetros que utiliza GoogleBot para evaluar y posicionar tu sitio llamado presupuesto de rastreo o Crawl Budget. Este, básicamente, es el tiempo que se le asigna a tu sitio para ser revisado o rastreado. Si este tiempo se consume y no se ha terminado de examinar el sitio, pues el buscador abandona el indexado de las páginas con el contenido que se ha actualizado, quizás hasta la próxima vez.

Como entenderás, si te libras de las páginas que no son necesarias indexar y dejar solamente las que tienen contenido útil para el usuario, estás garantizando que la información relevante sea contemplada por el buscador e incorporada a su base de búsqueda lo más rápido posible.

Debes entender que un buscador, en este caso Googlebot, debe indexar millones de sitios diariamente. Y el día tiene 24 horas, por lo que el presupuesto de rastreo de los buscadores es limitado. Gracias a la directiva Robots.txt NoIndex puedes indicarle que debe obviar de forma automática, por lo estarás ganando preciosos segundos para el contenido que realmente quieres posicionar.

Hay muchos otros parámetros que puedes optimizar para acelerar la indexación de tu sitio y usar de forma más coherente y efectivo tu presupuesto de rastreo, pero definitivamente  Robots.txt NoIndex es una de las formas más sencillas y efectivas.

Diferencias entre directiva noindex y disallow con robots.txt

Aunque el objetivo final y el resultado que se persigue sea el mismo, la desindexación, hacerlo de una forma u otra tiene diferencias, y hay que tenerlo en cuenta según el objetivo que se persigue:

Analicemos dos casos, no indexar mediante la meta etiqueta noindex supone que el bot Sí rastrea la página, Sí sigue los enlaces y Sí transmite autoridad. Mientras que mediante el robots.txt, el bot No rastrea la página, No sigue los enlaces y No transmite autoridad. La gran diferencia entre el robots.txt y el meta robots no index, en el caso de que fuera ‘noindex, follow’ reside en el rastreo.

Una URL en disallow no será rastreada lo más mínimo, es decir, el bot no pierde tiempo es rastrear su contenido. En el caso del noindex, GoogleBot accederá a contenido, y entre otras cosas en ese rastreo, verá la etiqueta meta name robots.

Otra diferencia a destacar es el tema de los enlaces y la transmisión de popularidad o linkjuice. Con el noindex, follow los enlaces de esa página serán seguidos por los bots y transmitirán popularidad, a no ser que un enlace en concreto cuente con otra etiqueta, Rel=”Nofollow”. Esta es la gran ventaja del meta robots, ya que te permite desindexar una página sin prescindir del rastreo de los enlaces que contiene. Algo realmente útil sobre todo para el enlazado interno.

Diferencias entre la Meta tag Noindex y Robots.txt NoIndex

Esto es algo que tiende bastante a confundir, así que aclarémoslo desde el comienzo. Cuando hablamos de una Meta tag o meta etiqueta, nos referimos a algo que existe en una página específica. Por ejemplo, si yo no quisiera que mi Política de Privacidad se indexe en Google (aunque te recomiendo encarecidamente que la revises, porque te ya a sorprender a lo que has estado de acuerdo mientras lees este artículo), pondría en la cabecera de la página https://www.manuelperezcardona.com/politica-de-privacidad :

<meta name=”robots” content=”noindex,follow”>

Para cada página que no se quiere que se indexe, se puede usar esta directiva. Cuando Google la revisa y ve esta etiqueta, debería remover esta página de su índice. No obstante, una vez implementada esta directiva y habiendo sido removida la página por el buscador, no le dice que no explore más esta página.

De hecho, cada vez que se actualice el índice el buscador volverá a inspeccionar esta página, aunque con el tiempo algunos buscadores recuerdan tu decisión y la exploran menos. Por supuesto, esto es grave a la hora de optimizar el presupuesto de rastreo de tu página, porque en realidad estás haciendo que el buscador revise y pierda tiempo en una página que al final no va a indexar

No obstante, el Robots.txt NoIndex funciona diferente. Si Google la respeta, se puede combinar el concepto de bloquear la revisión de la página y cumplir la directiva al mismo tiempo. Esto se logra escribiendo en el Robots.txt algo como esto:

Disallow: /politica-de-privacidad/

Noindex: /politica-de-privacidad/

Como la instrucción NoIndex no requiere que se cargue toda la página, el buscador puede mantenerlo fuera del índice y no explorarlo, lo cual es una potente combinación. No obstante, la página aún será capaz de acumular Popularidad, pero no se lo puede trasmitir a otras páginas del sitio, debido a que la exploración ha sido bloqueada.

Un error muy común es implementar el Robots Metatag y también bloquear su indexación con el Robots.txt. Esto es redundante y, pongámoslo así, tonto: como ya la página está bloqueada por el Robots.txt, el Robots Metatag nunca será visto.

En resumen, Robots.txt NoIndex es más rápido, más limpio y más fácil para manejar múltiples ficheros a la vez. Al mismo tiempo, hay menos confusión si se solapan directivas: robots.txt prevalecerá por encima de cualquier etiqueta que se coloque en una página específica.

Probando la efectividad del Robots.txt NoIndex

Para analizar si Google respeta la directiva Robots.txt NoIndex, se tomaron en este experimento de Eric Enge en Stone Temple, 13 sitios webs en un intento de remover una o varias de sus páginas del índice de Google, utilizando Robots.txt NoIndex. Para ello, 8 de los sitios crearon páginas para este solo propósito, mientras 5 emplearon páginas ya creadas. Se esperó que los 13 sitios fueran incluidos por Google Index y luego se adicionó la directiva NoIndex para las páginas a eliminar en el fichero Robots.txt. Debido a un error del operador, una de las páginas no fue tomada en cuenta para el análisis.

Luego, se verificó durante 31 días que la página en cuestión permanecía en el índice de Google, o si había sido retirada. Como resultado, 11 de las 12 páginas fueron removidas de Google en un plazo de 26 días, lo que indica que el buscador no las saca del índice inmediatamente que se carga el Robots.txt. La primera página fue sacada del índice a la semana. La última, casi en la tercera.

Por tanto, podemos derivar una primera conclusión: Google demora entre una a tres semanas para sacar una página de su índice luego que el usuario lo ordena a través de la directiva Robots.txt NoIndex.

Cómo desindexar o eliminar una url o página desde Search Console

Existe la forma de desindexar o eliminar de forma masiva urls para ahorrarte el tiempo de ir eliminando una a una cada url. En este post, descubrirás como hacerlo.

Especulando que es lo que pasa

Lo primero que viene a la mente es que Google solo ejecuta el Robots.txt NoIndex cuando vuelve a re inspeccionar el sitio web, pero esto no es cierto. Cuando se analizan los logs de acceso a los sitios utilizados en el análisis, podemos percatarnos que Googlebot cargaba el fichero Robots.txt varias veces por día.

Si analizamos la página que nunca salió del índice, vemos que Googlebot cargó varias veces el Robots.txt, pero también accedió a la página a desindexar, haciendo caso omiso a la directiva. Mientras, en las páginas que sí fueron excluidas del índice, se cargaba regularmente el Robots.txt y la página a remover nunca fue inspeccionada.

De estos datos se puede concluir que Google no responde de inmediato a la directiva NoIndex cada vez que carga el archivo Robots.txt. Aunque es natural que exista una lógica involucrada en el proceso, el algoritmo que utiliza el Googlebot para obedecer la directiva NoIndex no queda claro, y en uno de los casos no la respetó en lo absoluto. Por eso, podemos afirmar que implementarla no garantiza de forma automática que Google saque la página de su índice.

Una opinión muy personal

Mi opinión el ver estos datos del experimento, y es una opinión tremendamente personal, es que Googlebot espera un tiempo prudencial para limpiar tu página de sus registros. Esto ahorraría mucho esfuerzo si has estado jugando con el fichero Robots.txt y has cometido un error, y te da tiempo a corregirlo. Por eso es que el fichero es cargado varias (muchas) veces antes de desindexar la página definitivamente, pero no se inspecciona: el algoritmo está esperando que restaures la directiva a su  condición original. No obstante, es algo que me gustaría probar con mi equipo, para así poder confirmar algo más por experiencia propia.

El tiempo que demora en eliminar definitivamente la página puede variar por muchos motivos: un alto nivel de popularidad puede ser uno de ellos. Es algo así como la ventana de diálogo que te pregunta si estás realmente seguro que no quieres indexar más esta página que lo está haciendo tan bien. Esto podría explicar la demora en sacarla de la base de datos de Google, porque al fin y al cabo, si se elimina debido a un error humano, Googlebot y Caffeine tendrán que revisarla y ponerla de vuelta cuando la directiva se elimina.

No obstante, la directiva Robots.txt NoIndex es bastante efectiva y funciona la mayoría de las veces, aunque hay que darle su tiempo. Es fácil de definir y puede que funcione de maravillas para tu sitio, dándole el impulso de buen SEO que necesitas, previniendo que Google revise las páginas inútiles y sacándolas de su índice. No necesitas definirlo a priori antes de hacer la página: puedes implementarlo ahora mismo para las páginas que quieres excluir de tu sitio, y en un plazo razonable de tiempo se cumplirá tu objetivo.

También ten en cuenta que aunque bloquees la página de ser revisada y utilices el Robots.txt NoIndex, esta página aún puede acumular Popularidad, y eso aun importa y mucho, al permitir que se contabilicen los vínculos.

Pero no hay que olvidar que según lo que dijo John Mueller, no se debe depender exclusivamente de este enfoque. Google podría remover esta funcionalidad en un futuro y su status  es hasta el momento sin soporte.

¿Para qué usarlo entonces? Pues porque tampoco obligados a eliminar el 100% de las páginas del índice, si estamos utilizando el Robots.txt NoIndex a los efectos del SEO, y aún conservamos el efecto del Pagerank. Esta es la diferencia entre confiar en la herramienta y utilizar la herramienta para nuestros fines. Mientras esto nos quede claro, cualquier vía es válida.

Si crees que tu web necesita una mejora del SEO y quieres obtener mayor visibilidad y tráfico orgánico cualificado que se traduzca en conversiones, no dudes en contactar conmigo.