Saltear al contenido principal
Archivo Robots.txt ¿Qué Es Y Para Que Sirve?

Archivo robots.txt ¿Qué es y para que sirve?

Archivo robots.txt. Descubre todo lo que puede hacer por ti

El robots.txt es imprescindible para los que trabajamos en este mundo. ¿Y por qué estaréis pensando? Como muchos sabréis, Google y el resto de buscadores utilizan robots para leer, franquear y almacenar cada web. Lo primero que hacen es solicitar al servidor el archivo robots.txt, es decir, –> http://dominio.es/robots.txt.

Ejemplo de archivo robots.txt:

  • Sitemap: http://joan.fenoll.es/sitemap.xml
  • User-agent: *
  • Allow: /

Ahora la explicación de cada línea.

  • Declaración para los robots de cualquier buscador que las siguientes instrucciones son para ellos.
  • Las instrucciones van dirigidas a todos los robots.
  • Si se permite o no el acceso al directorio indicado.

El siguiente archivo robots.txt presenta un gran número de disallow para no permitir el rastre de los robots de los buscadores a diferentes situaciones como son páginas dinámicas, directorios o ficheros por no interesar a nivel de SEO o por determinadas circunstancias.

Zalando ha personalizado al máximo su robots.txt

Fichero robots.txt de Zalando.

Archivo robots.txt ¿dónde se ubica, funciones y cuándo se debe emplear?

Este archivo se ubica dentro del directorio de nivel superior del host. Entre sus misiones, esta la de informar de la existencia de archivos XML sitemap, indicar a los robots, que desean acceder a nuestra web, qué páginas o directorios son accesibles para ellos, e impedir la indexación de contenido duplicado. Sin embargo, los robots no siempre hacen lo que les decimos y nuestras indicaciones pueden ser ignoradas. Asimismo, es importante recalcar que este archivo es visible al publico, es decir, no debemos utilizarlo para bloquear el acceso a contenido peligro, vulnerable o de carácter privado.

Un ejemplo muy claro de cuándo usar el archivo robots.txt podría ser perfectamente este que os voy a explicar. Una situación en la que la creación de contenido es imposible de evitar y no debe ser rastreado. Este caso pueden ser las páginas o listados generados por el buscador de la web cuando el usuario realiza una consulta. Para esta situación es clave utilizar el robots.txt porque esas páginas dinámicas son contenido no original y se puede interpretar como contenido duplicado. Pero volvemos a repetir, no es 100% seguro, puede ser que terminen siendo rastreadas e indexadas.

Los comandos más comunes encontrados en el archivo robots.txt

Directrices a seguir para su correcta implementación

Los comandos que utiliza el archivo robots.txt han sido marcados por Robots Exclusion Protocol, un convenio universal que dice cómo debes construir tu fichero robots.txt.

  • Sólo son válidos los comandos permitidos (a pesar de que algunos sí entienden comandos adicionales).
  • Respetar la ordenación de mayúsculas/minúsculas, la puntuación y los espacios.
  • Cada grupo User-agent/Disallow debe estar separado por una línea en blanco.
  • Se permiten comentarios mediante la almohadilla o símbolo de hash (#)

Los comandos más relevantes y utilizados

  1. User-agent – señala qué robot debe seguir las instrucciones.
  2. Disallow – no permite el acceso a un directorio o página concreta.
  3. Allow – Permite el acceso  a directorios y páginas.
  4. Sitemap – Indicar la ruta donde se encuentra un mapa del sitio en XML.
  5. Crawl-delay – Indica al robot el número de segundos que debe esperar entre cada página.
Ejemplo fichero robots.txt

Archivo robots.txt con diferentes comandos del sitio web adidas.

¿Cómo validar el archivo robots.txt?

Google Search Console nos indica el número de páginas que identifica como bloqueadas, así como de los recursos bloqueados que estén afectando a la lectura del contenido de la web. A través del probador de robots.txt de la «Console» podemos comprobar que página o fichero se está bloqueando.

Verificar archivo robots.txt

Probador robots.txt de Google Search Console.

Otro modo de comprobar qué páginas o ficheros del sitio están siendo bloqueados por el robots.txt. es a través de rastreadores SEO como puede ser Screaming Frog, Xenu Link Sleuth o VisualSEO Studio, entre otras. En mi post sobre mejores herramientas SEO gratis quizás puedas encontrar alguna útil para tu día a día.

En esta captura de pantalla podemos ver la interfaz de Screaming Frog con un filtro de «páginas bloqueadas por el robots.txt», la regla del archivo que está bloqueando cada una y desde donde enlazan.

 

Recursos

Si necesitas saber más detalles sobre el fichero robots.txt, aquí puedes encontrar toda la información.

Ayuda de Google para robots.txt
The Web Robots Pages

Summary
Archivo robots.txt ¿Qué es y para que sirve?
Article Name
Archivo robots.txt ¿Qué es y para que sirve?
Description
Importancia del Archivo robots.txt. Descubre qué es y cuáles son sus principales funciones. Aprende cómo construir un archivo robots.txt sencillo de un modo fácil y rápido.
Author
Publisher Name
Joan Fenoll. Consultor SEO

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies
Volver arriba