Googlebot es un sistema de rastreo web automático y siempre activo que mantiene actualizado el índice de Google.
El sitio web en todo el mundowebsize.com estima que el índice de Google es de más de 62 mil millones de páginas web.
El índice de búsqueda de Google está «muy por encima 100.000.000 gigas en tamaño.»
Googlebot y sus variantes (teléfonos inteligentes, noticias, imágenes, etc.) tienen ciertas restricciones en cuanto a la frecuencia de procesamiento de JavaScript o el tamaño de los recursos.
Google usa restricciones de rastreo para proteger sus propios sistemas y recursos de rastreo.
Por ejemplo, si un sitio web de noticias actualiza los artículos recomendados cada 15 segundos, Googlebot podría comenzar a omitir las secciones que se actualizan con frecuencia, ya que no serán relevantes ni válidas después de 15 segundos.
Hace años, Google anunció que no rastrea ni utiliza recursos mayores de 15 MB.
El 28 de junio de 2022, Google volvió a publicar esta entrada de blog al afirmar que no utiliza la parte sobrante de los recursos después de 15 MB para rastrear.
Para enfatizar que rara vez sucede, Google afirmó que el «tamaño medio de un archivo HTML es 500 veces más pequeño» que 15 MB.
Arriba, HTTPArchive.org muestra el tamaño medio de archivo HTML de escritorio y móvil. Por lo tanto, la mayoría de los sitios web no tienen el problema de la restricción de 15 MB para el rastreo.
Pero, la web es un lugar grande y caótico.
Comprender la naturaleza del límite de rastreo de 15 MB y las formas de analizarlo es importante para los SEO.
Una imagen, un video o un error pueden causar problemas de rastreo, y esta información de SEO menos conocida puede ayudar a los proyectos a proteger su valor de búsqueda orgánica.
¿El límite de rastreo de Googlebot de 15 MB es solo para documentos HTML?
No.
El límite de rastreo de Googlebot de 15 MB es para todos los documentos indexables y rastreables, incluidos Google Earth, Hancom Hanword (.hwp), texto de OpenOffice (.odt) y formato de texto enriquecido (.rtf) u otros tipos de archivos compatibles con Googlebot.
¿Se suman los tamaños de imagen y video con el documento HTML?
No, cada recurso se evalúa por separado según el límite de rastreo de 15 MB.
Si el documento HTML tiene 14,99 MB y la imagen destacada del documento HTML vuelve a tener 14,99 MB, ambos serán rastreados y utilizados por Googlebot.
El tamaño del documento HTML no se suma a los recursos que están vinculados a través de etiquetas HTML.
¿El CSS en línea, JS o URI de datos inflan el tamaño del documento HTML?
Sí, el CSS en línea, JS o el URI de datos se cuentan y se utilizan en el tamaño del documento HTML.
Por lo tanto, si el documento supera los 15 MB debido a recursos y comandos en línea, afectará la capacidad de rastreo del documento HTML específico.
¿Google deja de rastrear el recurso si tiene más de 15 MB?
No, los sistemas de rastreo de Google no dejan de rastrear los recursos que superan el límite de 15 MB.
Continúan buscando el archivo y usan solo la parte más pequeña que los 15 MB.
Para una imagen de más de 15 MB, Googlebot puede fragmentar la imagen hasta los 15 MB con la ayuda del «rango de contenido».
Content-Range es un encabezado de respuesta que ayuda a Googlebot u otros rastreadores y solicitantes a realizar solicitudes parciales.
¿Cómo auditar el tamaño del recurso manualmente?
Puedes usar Herramientas para desarrolladores de Google Chrome para auditar el tamaño del recurso manualmente.
Siga los pasos a continuación en Google Chrome.
- Abra un documento de página web a través de Google Chrome.
- Presione F12.
- Vaya a la pestaña Red.
- Actualizar la página web.
- Ordena los recursos según la Cascada.
- Comprobar el Talla columna en la primera fila, que muestra el tamaño del documento HTML.
A continuación, puede ver un ejemplo de un documento HTML de la página de inicio de searchenginejournal.com, que tiene más de 77 KB.
¿Cómo auditar el tamaño de los recursos de forma automática y masiva?
Utilice Python para auditar el tamaño del documento HTML de forma automática y masiva. Advertools y Pandas son dos bibliotecas de Python útiles para automatizar y escalar tareas de SEO.
Sigue las instrucciones de abajo.
- Importar Advertools y Pandas.
- Recopile todas las URL en el mapa del sitio.
- Rastrear todas las URL en el mapa del sitio.
- Filtre las URL con su tamaño HTML.
import advertools as adv
import pandas as pd
df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")
adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})
df = pd.read_json("output.jl", lines=True)
df[["url", "size"]].sort_values(by="size", ascending=False)
El bloque de código anterior extrae las URL del mapa del sitio y las rastrea.
La última línea del código es solo para crear un marco de datos con un orden descendente según los tamaños.
Puede ver los tamaños de los documentos HTML como se muestra arriba.
El documento HTML más grande en este ejemplo tiene alrededor de 700 KB, que es una página de categoría.
Por lo tanto, este sitio web es seguro para restricciones de 15 MB. Pero, podemos comprobar más allá de esto.
¿Cómo verificar los tamaños de los recursos CSS y JS?
Titiritero se utiliza para comprobar el tamaño de los recursos CSS y JS.
Titiritero es un paquete de NodeJS para controlar Google Chrome con modo sin cabeza para la automatización del navegador y las pruebas de sitios web.
La mayoría de los profesionales de SEO utilizan Lighthouse o la API de Page Speed Insights para sus pruebas de rendimiento. Pero, con la ayuda de Puppeteer, se pueden analizar todos los aspectos técnicos y de simulación.
Siga el bloque de código a continuación.
const puppeteer = require('puppeteer');
const XLSX = require("xlsx");
const path = require("path");
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto('https://www.holisticseo.digital');
console.log('Page loaded');
const perfEntries = JSON.parse(
await page.evaluate(() => JSON.stringify(performance.getEntries()))
);
console.log(perfEntries);
const workSheetColumnName = [
"name",
"transferSize",
"encodedSize",
"decodedSize"
]
const urlObject = new URL("https://www.holisticseo.digital")
const hostName = urlObject.hostname
const domainName = hostName.replace("\www.|.com", "");
console.log(hostName)
console.log(domainName)
const workSheetName = "Users";
const filePath = `./${domainName}`;
const userList = perfEntries;
const exportPerfToExcel = (userList) => {
const data = perfEntries.map(url => {
return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];
})
const workBook = XLSX.utils.book_new();
const workSheetData = [
workSheetColumnName,
...data
]
const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);
XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);
XLSX.writeFile(workBook, path.resolve(filePath));
return true;
}
exportPerfToExcel(userList)
//browser.close();
})();
Si no sabe JavaScript o no terminó ningún tipo de tutorial de Puppeteer, puede que le resulte un poco más difícil comprender estos bloques de código. Pero, en realidad es simple.
Básicamente, abre una URL, toma todos los recursos y proporciona su «Tamaño de transferencia», «Tamaño codificado» y «Tamaño decodificado».
En este ejemplo, «decodedSize» es el tamaño en el que debemos centrarnos. A continuación, puede ver el resultado en forma de archivo XLS.
Si desea volver a automatizar estos procesos para cada URL, deberá usar un bucle for en el comando «await.page.goto()».
Según sus preferencias, puede colocar cada página web en una hoja de trabajo diferente o adjuntarla a la misma hoja de trabajo agregándola.
Conclusión
La restricción de rastreo de 15 MB de Googlebot es una posibilidad rara que bloqueará sus procesos técnicos de SEO por ahora, pero HTTPArchive.org muestra que los tamaños promedio de video, imagen y JavaScript han aumentado en los últimos años.
El tamaño medio de la imagen en el escritorio ha superado 1 MB.
Los bytes de video superan los 5 MB en total.
En otras palabras, de vez en cuando, Googlebot puede omitir estos recursos, o algunas partes de estos recursos.
Por lo tanto, debería poder controlarlos automáticamente, con métodos masivos para hacer tiempo y no saltar.
Más recursos:
Imagen destacada: BestForBest/Shutterstock