Qué es el archivo robots.txt

Por:

Qué es el archivo robots.txt

¿Qué es el archivo robots.txt?

El archivo robots.txt es un conjunto de instrucciones para bots que indica a los rastreadores de motores de búsqueda qué páginas o archivos puede o no solicitar el rastreador de su sitio. Este archivo se incluye en los archivos de origen de la mayoría de los sitios web.

Los archivos Robots.txt están destinados principalmente a administrar las actividades de buenos bots como los rastreadores web, ya que es poco probable que los malos bots sigan las instrucciones.

Un bot es un programa automatizado que interactúa con sitios web y aplicaciones. Hay bots buenos y bots malos, y uno de los buenos se llama bot rastreador web. Estos bots «rastrean» páginas web e indexan el contenido para que pueda aparecer en los resultados de los motores de búsqueda.

Un archivo robots.txt ayuda a administrar las actividades de estos rastreadores web para que no sobrecarguen al servidor web que aloja el sitio web o indexen páginas que no estén destinadas a la vista pública.

¿Cómo funciona un archivo robots.txt?

Un archivo robots.txt es solo un archivo de texto sin código HTML (de ahí la extensión .txt). El archivo robots.txt se aloja en el servidor web como cualquier otro archivo en el sitio web.

El archivo no está vinculado a ningún otro lugar del sitio, por lo que es poco probable que los usuarios se topen con él, pero la mayoría de los robots rastreadores web buscarán este archivo primero antes de rastrear el resto del sitio.

Si bien un archivo robots.txt proporciona instrucciones para bots, en realidad no puede hacer cumplir las instrucciones. Un buen bot, como un rastreador web o un bot de noticias, intentará visitar el archivo robots.txt antes de ver cualquier otra página de un dominio y seguir las instrucciones.

Un robot malintencionado ignorará el archivo robots.txt o lo procesa para encontrar las páginas web que están prohibidas.

¿Por qué es importante Robots.txt?

La mayoría de los sitios web no necesitan un archivo robots.txt.

Esto se debe a que, por lo general, Google puede encontrar e indexar todas las páginas importantes de su sitio y NO indexan automáticamente páginas que no sean importantes o versiones duplicadas de otras páginas.

Dicho esto, existen tres motivos principales por los que le conviene utilizar un archivo robots.txt.

  1. Bloquear páginas no públicas: a veces, tiene páginas en su sitio que no desea que se indexen. Por ejemplo, puede tener una versión provisional de una página. O una página de inicio de sesión. Estas páginas deben existir, pero no quieres que personas al azar caigan en ellos. Este es un caso en el que usaría robots.txt para bloquear estas páginas de los rastreadores y bots de los motores de búsqueda.
  2. Maximizar el presupuesto de rastreo: si tiene dificultades para indexar todas sus páginas, es posible que tenga un problema con el presupuesto de rastreo. Al bloquear páginas sin importancia con robots.txt, Googlebot puede gastar más de su presupuesto de rastreo en las páginas que realmente importan.
  3. Evitar la indexación de recursos: el uso de meta directivas puede funcionar tan bien como Robots.txt para evitar que las páginas se indexen. Sin embargo, las metas directrices no funcionan bien para los recursos multimedia, como archivos PDF e imágenes. Ahí es donde entra en juego robots.txt.

Mejores prácticas

Al ser un archivo de texto, puede crear uno usando el bloc de notas de Windows.

Y no importa cómo cree finalmente su archivo robots.txt, el formato es exactamente el mismo:

User-agent: X
Disallow: Y

User-agent es el bot específico con el que estás hablando.

Y todo lo que viene después de «no permitir» son páginas o secciones que desea bloquear.

Aquí tienes un ejemplo:

User-agent: googlebot
Disallow:: / imágenes

Esta regla le indicaría al robot de Google que no indexe la carpeta de imágenes de su sitio web.

También puede usar un asterisco (*) para hablar con todos y cada uno de los bots que pasan por su sitio web.

Aquí tienes un ejemplo:

Agente de usuario: *
No permitir: / imágenes

El «*» le dice a todas y cada una de las arañas que NO rastreen su carpeta de imágenes.

Archivos robots básico

Este es el archivo básico para robots:

User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml

Este archivo lo que hace es permitir todos los rastreadores o arañas a todas las partes del sitio y además da la dirección del mapa de sitio para que google lo pueda encontrar.

Puedes encontrar todas las reglas y directrices para el robots.txt en la excelente Guía de Google

Google developers robots.txt

Te Recomendamos

Artículos Recientes