Robots.txt : ejemplos de buenas prácticas, errores o extravagancias

Tags: 
robot de google / robots de indexación

Vamos a examinar un archivo fundamental en la gestión del rastreo de una web por los robots de indexación: el fichero robots.txt. Este fichero corresponde a un estándar internacionalmente adoptado para limitar el consumo de banda ancha y no perjudicar servidores web. Puede parecer poco creíble que hoy en día se pueda caer un servidor tan sólo descargando  páginas pero en el caso de webs voluminosas (millones o, a veces, millares de URLs), esto es totalmente factible. La gestión de la carga servidor en este caso es fundamental. Por cierto, el control del consumo de banda ancha de una web no solo depende del fichero robots.txt (ni de lejos) pero en este artículo nos vamos a centrar solo en él.

Para que sea más didáctico y fácil de entender, hemos seleccionado unos ejemplos de robots.txt singulares. Asumimos que el “humor seo” a menudo es raro o para iniciados, pero en este caso creemos que la selección puede ser entendida por cualquier lector.

Vamos a presentar una clasificación personal de las estrategias, astucias o decisiones incomprensibles de webs de varios sectores de actividad.

Contexto y objetivos del fichero robots.txt

  • Las instrucciones incluidas en el fichero robots.txt son consideradas como directivas por el robot de Google (eso lo ha afirmado recientemente Gary Illyes, se puede leer su entrevista en Stonetemple.com, ver enlace abajo).
  • Sin embargo, algunos robots no respetan las instrucciones o a veces usan otros nombres de identificación (“User-agent”) para poder rastrear webs sin autorización.
  • La instrucción más conocida es “Disallow” para bloquear el acceso a páginas,  secciones o webs enteras.
  • Sin embargo, se puede usar también para gestionar la indexación aunque no es su objetivo principal (instrucción “Noindex”, ver crawlerzone.com/robots.txt).

Problemas con Hacienda

Fichero robots.txt de Casareal.es

casareal.es/robots.txt

Este ejemplo estaba mencionado en la web Senormunoz.com (gracias a él por compartir, ver enlace hacia su página abajo). En la Casa real española, por razones propias, han querido bloquear el acceso (en todos los idiomas) a todas las páginas relacionadas con un miembro de la familia real llamado Iñaki Urdangarin. Desafortunadamente, el resultado es que siguen saliendo las páginas relacionadas con Iñaki Urdangarin en la página web oficial de la Casa real española porque no se han bloqueado a la indexación. Por otro lado, salen otras con contenido relacionado con el malvado yerno que se han olvidado bloquear y sobre todo desindexar.

Iñaki Urdangarin en los resultados de Google España

El fichero robots.txt de Google.com

Fichero robots.txt de Google.com

google.com/robots.txt

El fichero robots.txt de Google incluye muchas instrucciones, tanto “Disallow” como “Allow”. Espero que el equipo responsable haya guardado un historial de versiones del fichero y que se acuerdan de para qué sirve cada una. Con aproximativamente 31 millones de páginas indexadas en el buscador que le pertenece, Google tiene todas las razones para monitorizar su consumo de banda ancha.

Google.com en los resultados de Google España

Lista negra de user-agent

Fichero robots.txt de Elle.es

elle.es/robots.txt

Para una web editorial de tamaño importante como es Elle.es, reducir el consumo de banda ancha es determinante. Con este objetivo han listado y comentado varias categorías de robots inútiles que perjudican el rendimiento de servidores inútilmente.

Lista blanca

Fichero robots.txt de Linkedin.com

linkedin.com/robots.txt 74 millones 900 mil páginas indexadas en Google (aproximativamente)
facebook.com/robots.txt 4 millares 440 millones de páginas indexadas en Google (aproximativamente)
twitter.com/robots.txt 1 millón 900 mil páginas indexadas en Google (aproximativamente)

Las redes sociales más importantes lo hacen al revés, autorizan solo a los robots conocidos rastrear sus webs. Dado el volumen de URLs gestionadas por los servidores de estas plataformas, controlar el acceso y bloquear el scraping es vital. Sin embargo, esta solución no es suficiente porque se puede cambiar el nombre del robot de rastreo muy fácilmente con lo cual un bloqueo de IPs a nivel de servidores es igualmente recomendable.

En el caso de Twitter.com, bloquea todos los robots de indexación sin excepción. Aun así, tiene todavía aproximativamente 2 millones de páginas indexadas en Google.

Declaración de intención

Fichero robots.txt de Vibbo.com

vibbo.com/robots.txt

En la web de Vibbo.com, dicen que está prohibido rastrear la web pero en un comentario dentro del fichero robots.txt. Sin embargo, no incluyen ninguna instrucción para bloquear este mismo rastreo. Asumimos que deben tener otros niveles de bloqueo de seguridad para evitar el scraping de sus páginas.

A pie de letra

Fichero robots.txt de Colmar.fr

colmar.fr/robots.txt

Fichero robots.txt de Scorecover.com

scorecover.com/robots.txt

Fichero robots.txt de Boe.es

boe.es/robots.txt

En estos ejemplos vamos a ver cómo hay personas a las que le gusta complicarse la vida con listas extensivas de reglas redundantes o contraproducentes. Hay que acordarse también de que los robots siempre empiezan por descargar el fichero robots.txt, cada vez que entran en una web, con lo cual un fichero demasiado voluminoso retrasará aún más el acceso a los contenidos de la web.

En la ciudad francesa de Colmar, el ayuntamiento ha considerado que había que bloquear todas las páginas inútiles del CMA. El concepto no es malo, pero, sin embargo, no es obligatorio bloquear las páginas una a una.

Colmar.fr : 3.488 líneas de instrucciones.

En Scorecover.com, han apostado en bloquear páginas antiguas por fechas de publicación.

Scorecover.com : 5.941 líneas de instrucciones.

Sin embargo, el récord absoluto lo detenta actualmente el Boletín Oficial del estado español con 13.036 líneas de instrucciones. Ellos han elegido montar listas de instrucciones por años, por URLs y por ficheros. El resultado es que los ficheros pdf que bloquean, por ejemplo, aunque figuran dentro de instrucciones en el robots.txt, todavía aparecen en los resultados de Google pero sin snippet de descripción.

Resultados de Google Boe.es Resultados de Google pdf de Boe.es

Ofertas

Fichero robots.txt de I-neumaticos.com

i-neumaticos.es/robots.txt

Fichero robots.txt de Tripadvisor.com

tripadvisor.com/robots.txt

En I-neumaticos.com, presentan una oferta comercial, directamente en el fichero robots.txt (no se puede aprovechar desafortunadamente, era válida solo hasta julio de 2015).

En Tripadvisor.com tienen aproximadamente 91 millones de páginas indexadas en Google. Han elegido publicar una oferta de empleo de seo manager directamente en su fichero robots.txt.

Preocupante

Fichero robots.txt de Milanuncios.com

milanuncios.com/robots.txt

El fichero robots.txt de Milanuncios.com es un poco preocupante porque bloquea un repertorio que hace referencia a una práctica sexual poco respetuosa con los derechos de los animales. La existencia misma de un repertorio con esta categoría dentro del árbol de contenidos de la página web debería llamar la atención de sus dueños para quitarlo en lugar de bloquearlo a los robots. Preferimos no imaginar qué tipo de anuncios se pueden publicar ahí.

Inclasificables

Fichero robots.txt de Techchuff.com

techchuff.com/robots.txt

Fichero robots.txt de Youtube.com

youtube.com/robots.txt 138 millones de páginas indexadas en Google

En fin, estos dos ficheros robots.txt, claramente se burlan de los usuarios nerds que pasan su tiempo accediendo a este tipo de contenido. Es decir, nosotros, los geeks seo.

Conclusión

El fichero robots.txt es un criterio importante para la gestión del crawl de los robots de indexación. Se recomienda prestarle toda la atención necesaria para que sea lo más completo, conciso y ligero posible. Asumiendo que sirve para ahorrar consumo de la banda ancha, cada octeto de línea inútil perjudicará las performance seo de cada web. Habrá de documentarse lo más atentamente posible.

Algunas recomendaciones

  • Rastrear su página web con un crawler seo para tener una lista exhaustiva de páginas indeseables, inútiles o sin objetivos seo
  • La instrucción “Disallow” solo sirve para bloquear el rastreo de los robots, no la indexación
  • Usar el wildcard “*” para evitar entrar una lista de URLs únicas
    Ejemplo Disallow: /repertorio-bloqueado/*
  • Siempre probar el fichero robots.txt antes de subirlo en el entorno de producción para verificar que no se bloquean páginas importantes por error
  • Para quitar una página indeseable del índice de Google, es preferible enseñar un código de resolución 410 (página definitivamente suprimida del servidor)
  • Para los robots inútiles, lo que se recomienda es hacer una revisión del volumen de rastreo de los robots en base a los ficheros logs de servidor. Así se puede personalizar y actualizar el acceso a la web. Sin embargo, insistir en el hecho de que el fichero robots.txt no es una medida suficiente en el caso de robots maliciosos.

Enlaces recomendados

  • Una de las fuentes de información de este artículo es el mismo fichero robots.txt de un consultor seo español, señor muñoz. A todo señor, todo honor, recomendamos consultar tanto su fichero robots como su web de consultoría seo.

Fichero robots.txt de Senormunoz.com

senormunoz.es/robots.txt

Por si acaso conocéis ejemplos de robots.txt interesantes de conocer podéis compartirlos en comentario.

 

Añadir nuevo comentario