Robots.txt es una herramienta útil y potente para indicar a los rastreadores de los motores de búsqueda cómo desea que rastreen su sitio web. Gestionar este archivo es un componente clave de un buen SEO técnico.
No es todopoderoso –en Las propias palabras de Google“no es un mecanismo para mantener una página web fuera de Google”, pero puede ayudar a evitar que su sitio o servidor se sobrecargue con solicitudes de rastreadores.
Si tiene este bloqueo de rastreo en su sitio, debe asegurarse de que se esté utilizando correctamente.
Esto es particularmente importante si utiliza URL dinámicas u otros métodos que generan un número teóricamente infinito de páginas.
En esta guía, veremos algunos de los problemas más comunes con el archivo robots.txt, su impacto en su sitio web y su presencia en las búsquedas, y cómo solucionar estos problemas si cree que han ocurrido.
Pero primero, echemos un vistazo rápido a robots.txt y sus alternativas.
¿Qué es Robots.txt?
Robots.txt utiliza un formato de archivo de texto sin formato y se coloca en el directorio raíz de su sitio web.
Debe estar en el directorio superior de su sitio. Los motores de búsqueda simplemente lo ignorarán si lo coloca en un subdirectorio.
A pesar de su gran poder, robots.txt suele ser un documento relativamente simple y se puede crear un archivo robots.txt básico en segundos usando un editor como Bloc. Puedes divertirte con ellos y agregar mensajes adicionales para que los usuarios los encuentren.
Hay otras formas de lograr algunos de los mismos objetivos para los que normalmente se utiliza robots.txt.
Las páginas individuales pueden incluir una metaetiqueta de robots dentro del propio código de la página.
También puede utilizar el encabezado HTTP X-Robots-Tag para influir en cómo (y si) se muestra el contenido en los resultados de búsqueda.
¿Qué pueden hacer los robots.txt?
Robots.txt puede lograr una variedad de resultados en una variedad de tipos de contenido diferentes:
Se puede bloquear el rastreo de páginas web.
Es posible que aún aparezcan en los resultados de búsqueda, pero no tendrán una descripción de texto. El contenido que no sea HTML de la página tampoco se rastreará.
Se puede bloquear la aparición de archivos multimedia en los resultados de búsqueda de Google.
Esto incluye archivos de imágenes, vídeo y audio.
Si el archivo es público, seguirá “existiendo” en línea y se podrá ver y vincular, pero este contenido privado no se mostrará en las búsquedas de Google.
Los archivos de recursos, como scripts externos sin importancia, se pueden bloquear.
Pero esto significa que si Google rastrea una página que requiere que se cargue ese recurso, el robot de Google «verá» una versión de la página como si ese recurso no existiera, lo que puede afectar la indexación.
No puede utilizar robots.txt para bloquear completamente una página web para que no aparezca en los resultados de búsqueda de Google.
Para lograrlo, debe utilizar un método alternativo, como agregar una metaetiqueta noindex al encabezado de la página.
¿Qué tan peligrosos son los errores de Robots.txt?
Un error en robots.txt puede tener consecuencias no deseadas, pero a menudo no es el fin del mundo.
La buena noticia es que al reparar su archivo robots.txt, podrá recuperarse de cualquier error de forma rápida y (normalmente) completa.
Guía de Google para desarrolladores web dice esto sobre el tema de los errores de robots.txt:
“Los rastreadores web son generalmente muy flexibles y normalmente no se dejan influenciar por errores menores en el archivo robots.txt. En general, lo peor que puede pasar es que se produzcan errores [or] Las directivas no compatibles se ignorarán.
Sin embargo, tenga en cuenta que Google no puede leer la mente al interpretar un archivo robots.txt; Tenemos que interpretar el archivo robots.txt que obtuvimos. Dicho esto, si conoce problemas en su archivo robots.txt, normalmente son fáciles de solucionar”.
8 errores comunes de Robots.txt
Si su sitio web se comporta de manera extraña en los resultados de búsqueda, su archivo robots.txt es un buen lugar para buscar errores, errores de sintaxis y reglas excesivas.
Echemos un vistazo a cada uno de los errores anteriores con más detalle y veamos cómo asegurarnos de que tiene un archivo robots.txt válido.
1. Robots.txt no está en el directorio raíz
Los robots de búsqueda solo pueden descubrir el archivo si está en su carpeta raíz.
Es por eso que solo debe haber una barra diagonal entre .com (o dominio equivalente) de su sitio web y el nombre de archivo ‘robots.txt’ en la URL de su archivo robots.txt.
Si hay una subcarpeta allí, su archivo robots.txt probablemente no sea visible para los robots de búsqueda y su sitio web probablemente se comporte como si no existiera ningún archivo robots.txt.
Para solucionar este problema, mueva su archivo robots.txt a su directorio raíz.
Vale la pena señalar que esto necesitará que tengas acceso de root a tu servidor.
Algunos sistemas de gestión de contenidos cargan archivos en un subdirectorio «media» (o algo similar) de forma predeterminada, por lo que es posible que tengas que evitar esto para colocar tu archivo robots.txt en el lugar correcto.
2. Mal uso de comodines
Robots.txt admite dos caracteres comodín:
- Asterisco
- – representa cualquier instancia de un personaje válido, como un Joker en una baraja de cartas. Signo de dólar ($)
– denota el final de una URL, lo que le permite aplicar reglas solo a la parte final de la URL, como la extensión del tipo de archivo.
Es sensato adoptar un enfoque minimalista en el uso de comodines, ya que tienen el potencial de aplicar restricciones a una parte mucho más amplia de su sitio web.
También es relativamente fácil terminar bloqueando el acceso de los robots desde todo su sitio con un asterisco mal colocado.
Pruebe sus reglas comodín utilizando una herramienta de prueba de robots.txt para asegurarse de que se comporten como se espera. Tenga cuidado con el uso de comodines para evitar bloquear o permitir demasiado accidentalmente.
3. Sin índice en Robots.txt
Este es más común en sitios web que tienen más de algunos años.
Google dejó de obedecer las reglas de no indexación en archivos robots.txt a partir del 1 de septiembre de 2019.
Si su archivo robots.txt se creó antes de esa fecha o no contiene instrucciones de indexación, es probable que vea esas páginas indexadas en los resultados de búsqueda de Google.
La solución a este problema es implementar un método alternativo «noindex».
Una opción es la metaetiqueta robots, que puede agregar al encabezado de cualquier página web que desee evitar que Google indexe.
4. Scripts y hojas de estilo bloqueados
Puede parecer lógico bloquear el acceso del rastreador a JavaScripts externos y hojas de estilo en cascada (CSS).
Sin embargo, recuerde que el robot de Google necesita acceso a archivos CSS y JS para «ver» sus páginas HTML y PHP correctamente.
Si sus páginas se comportan de manera extraña en los resultados de Google, o parece que Google no las ve correctamente, verifique si está bloqueando el acceso del rastreador a los archivos externos requeridos.
Una solución sencilla para esto es eliminar la línea de su archivo robots.txt que bloquea el acceso.
O, si tiene algunos archivos que necesita bloquear, inserte una excepción que restaure el acceso al CSS y JavaScript necesarios.
5. Sin URL de mapa del sitio XML
Se trata más de SEO que de cualquier otra cosa.
Puede incluir la URL de su mapa de sitio XML en su archivo robots.txt.
Debido a que este es el primer lugar que busca el robot de Google cuando rastrea su sitio web, esto le da al rastreador una ventaja para conocer la estructura y las páginas principales de su sitio.
Si bien esto no es estrictamente un error, ya que omitir un mapa del sitio no debería afectar negativamente la funcionalidad principal real y la apariencia de su sitio web en los resultados de búsqueda, aún así vale la pena agregar la URL del mapa del sitio a robots.txt si desea darle un impulso a sus esfuerzos de SEO. aumentar.
6. Acceso a los sitios de desarrollo
Bloquear los rastreadores de su sitio web activo es un no-no, pero también lo es permitirles rastrear e indexar sus páginas que aún están en desarrollo.
Es una buena práctica agregar una instrucción de no permitir al archivo robots.txt de un sitio web en construcción para que el público en general no lo vea hasta que esté terminado.
Del mismo modo, es fundamental eliminar la instrucción de no permitir cuando inicia un sitio web completo.
Olvidarse de eliminar esta línea del archivo robots.txt es uno de los errores más comunes entre los desarrolladores web; puede impedir que todo su sitio web sea rastreado e indexado correctamente.
User-Agent: *
Disallow: /
Si su sitio de desarrollo parece estar recibiendo tráfico del mundo real, o su sitio web lanzado recientemente no funciona nada bien en la búsqueda, busque una regla de no permitir agente de usuario universal en su archivo robots.txt:
Si ve esto cuando no debería (o no lo ve cuando debería), realice los cambios necesarios en su archivo robots.txt y verifique que la apariencia de búsqueda de su sitio web se actualice en consecuencia.
7. Usar URL absolutas
Si bien el uso de URL absolutas en cosas como canonicals y hreflang es la mejor práctica, para las URL en robots.txt, ocurre lo contrario.
El uso de rutas relativas en el archivo robots.txt es el método recomendado para indicar a qué partes de un sitio no deben acceder los rastreadores. Esto se detalla enDocumentación robots.txt de Google
Que estados:
Un directorio o página, relativo al dominio raíz, que puede ser rastreado por el agente de usuario que acabamos de mencionar.
Cuando utiliza una URL absoluta, no hay garantía de que los rastreadores la interpreten según lo previsto y que se siga la regla no permitir/permitir.
8. Elementos obsoletos y no compatibles
Si bien las pautas para los archivos robots.txt no han cambiado mucho a lo largo de los años, dos elementos que a menudo se incluyen son:
Si bien Bing admite el retraso del rastreo, Google no, pero los webmasters suelen especificarlo. Solía poder establecer la configuración de rastreo en Google Search Console, pero esto se eliminó a fines de 2023.
Google anunció que dejaría de admitir la directiva noindex en archivos robots.txt en julio de 2019. Antes de esta fecha, los webmasters podían utilizar la directiva noindex en su archivo robots.txt.
Esta no era una práctica ampliamente respaldada ni estandarizada, y el método preferido para noindex era utilizar robots en la página o medidas de x-robots a nivel de página.
Cómo recuperarse de un error de Robots.txt
Si un error en el archivo robots.txt tiene efectos no deseados en la apariencia de búsqueda de su sitio web, el primer paso es corregir el archivo robots.txt y verificar que las nuevas reglas tengan el efecto deseado.
Algunas herramientas de rastreo de SEO pueden ayudarle a no tener que esperar a que los motores de búsqueda rastreen su sitio a continuación.
Cuando esté seguro de que robots.txt se comporta como desea, puede intentar volver a rastrear su sitio lo antes posible. Plataformas como Consola de búsqueda de Google y Herramientas para webmasters de Bing
poder ayudar.
Envíe un mapa del sitio actualizado y solicite que se vuelva a rastrear cualquier página que se haya eliminado de la lista de manera inapropiada.
Desafortunadamente, estás bajo el capricho del robot de Google: no hay garantía de cuánto tiempo tardarán las páginas faltantes en reaparecer en el índice de búsqueda de Google.
Todo lo que puedes hacer es tomar la acción correcta para minimizar ese tiempo tanto como sea posible y seguir comprobando hasta que Googlebot implemente el archivo robots.txt corregido.
Pensamientos finales
Cuando se trata de errores de robots.txt, siempre es mejor prevenir que curar.
En un sitio web de gran tamaño que genera ingresos, un comodín perdido que elimine todo su sitio web de Google puede tener un impacto inmediato en las ganancias.
Las modificaciones en robots.txt deben ser realizadas cuidadosamente por desarrolladores experimentados, verificadas dos veces y, cuando corresponda, sujetas a una segunda opinión.
Si es posible, pruebe en un editor de espacio aislado antes de publicarlo en su servidor del mundo real para evitar crear problemas de disponibilidad sin darse cuenta.
Recuerde, cuando sucede lo peor, es importante no entrar en pánico.
Diagnostica el problema, realiza las reparaciones necesarias en robots.txt y vuelve a enviar tu mapa del sitio para un nuevo rastreo.
Es de esperar que su lugar en los rankings de búsqueda se recupere en cuestión de días.
Más recursos:
Imagen de portada: M-SUR/Shutterstock
Fuente: 8 problemas comunes de Robots.txt y cómo solucionarlos