Google reveló detalles de dos nuevos rastreadores que están optimizados para extraer contenido de imágenes y videos con fines de “investigación y desarrollo”. Aunque la documentación no lo dice explícitamente, se supone que no habrá ningún impacto en la clasificación si los editores deciden bloquear los nuevos rastreadores.
Cabe señalar que los datos recopilados por estos rastreadores no son explícitamente para datos de entrenamiento de IA, para eso está el rastreador extendido de Google.
GoogleOtros rastreadores
Los dos nuevos rastreadores son versiones del rastreador GoogleOther de Google que se lanzó en abril de 2023. El rastreador GoogleOther original también fue designado para que lo utilicen los equipos de productos de Google para investigación y desarrollo en lo que se describe como rastreos únicos, cuya descripción ofrece pistas. sobre para qué se utilizarán las nuevas variantes de Google.
El propósito del rastreador GoogleOther original se describe oficialmente como:
“GoogleOther es el rastreador genérico que pueden utilizar varios equipos de productos para recuperar contenido de sitios de acceso público. Por ejemplo, puede usarse para rastreos únicos para investigación y desarrollo internos”.
Dos GoogleOtras variantes
Hay dos nuevos rastreadores de Google Other:
- GoogleOtra-Imagen
- GoogleOtro-Video
Las nuevas variantes son para rastrear datos binarios, que son datos que no son texto. Los datos HTML generalmente se denominan archivos de texto, archivos ASCII o Unicode. Si se puede ver en un archivo de texto, entonces es un archivo de texto/ASCII/Unicode. Los archivos binarios son archivos que no se pueden abrir en una aplicación de visualización de texto, archivos como imágenes, audio y video.
Las nuevas variantes de GoogleOtras son para contenido de imagen y vídeo. Google enumera tokens de agente de usuario para los dos nuevos rastreadores que se pueden usar en un archivo robots.txt para bloquear los nuevos rastreadores.
1. GoogleOtra imagen
Tokens de agente de usuario:
- GoogleOtra-Imagen
- GoogleOtro
Cadena completa de agente de usuario:
GoogleOtra-Imagen/1.0
2. GoogleOtros vídeos
Tokens de agente de usuario:
- GoogleOtro-Video
- GoogleOtro
Cadena completa de agente de usuario:
GoogleOtro-Video/1.0
Cadenas de agentes de usuario de GoogleOtros recientemente actualizadas
Google también actualizó las cadenas de agente de usuario de GoogleOther para el rastreador GoogleOther habitual. Para fines de bloqueo, puede continuar usando el mismo token de agente de usuario que antes (GoogleOther). Las nuevas Users Agent Strings son solo los datos enviados a los servidores para identificar la descripción completa de los rastreadores, en particular la tecnología utilizada. En este caso, la tecnología utilizada es Chrome, con el número de modelo actualizado periódicamente para reflejar qué versión se utiliza (WXYZ es un marcador de posición del número de versión de Chrome en el ejemplo que se muestra a continuación).
La lista completa de cadenas de agentes de usuario de GoogleOtros:
- Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/WXYZ Mobile Safari/537.36 (compatible; GoogleOther)
- Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GoogleOther) Chrome/WXYZ Safari/537.36
GoogleOtra familia de bots
Estos nuevos bots pueden aparecer de vez en cuando en los registros de su servidor y esta información ayudará a identificarlos como rastreadores genuinos de Google y ayudará a los editores que quieran optar por no eliminar sus imágenes y videos con fines de investigación y desarrollo.
Lea la documentación actualizada del rastreador de Google
Imagen destacada de Shutterstock/ColorMaker
Fuente: Google revela dos nuevos rastreadores web