M谩s

    Encuentre recursos de m谩s de 15 MB para un mejor rastreo de Googlebot

    - Advertisement -

    Googlebot es un sistema de rastreo web autom谩tico y siempre activo que mantiene actualizado el 铆ndice de Google.

    El sitio web en todo el mundowebsize.com estima que el 铆ndice de Google es de m谩s de 62 mil millones de p谩ginas web.

    El 铆ndice de b煤squeda de Google est谩 芦muy por encima 100.000.000 gigas en tama帽o.禄

    Googlebot y sus variantes (tel茅fonos inteligentes, noticias, im谩genes, etc.) tienen ciertas restricciones en cuanto a la frecuencia de procesamiento de JavaScript o el tama帽o de los recursos.

    Google usa restricciones de rastreo para proteger sus propios sistemas y recursos de rastreo.

    Por ejemplo, si un sitio web de noticias actualiza los art铆culos recomendados cada 15 segundos, Googlebot podr铆a comenzar a omitir las secciones que se actualizan con frecuencia, ya que no ser谩n relevantes ni v谩lidas despu茅s de 15 segundos.

    Hace a帽os, Google anunci贸 que no rastrea ni utiliza recursos mayores de 15 MB.

    El 28 de junio de 2022, Google volvi贸 a publicar esta entrada de blog al afirmar que no utiliza la parte sobrante de los recursos despu茅s de 15 MB para rastrear.

    Para enfatizar que rara vez sucede, Google afirm贸 que el 芦tama帽o medio de un archivo HTML es 500 veces m谩s peque帽o禄 que 15 MB.

    Captura de pantalla del autor, agosto de 2022

    Arriba, HTTPArchive.org muestra el tama帽o medio de archivo HTML de escritorio y m贸vil. Por lo tanto, la mayor铆a de los sitios web no tienen el problema de la restricci贸n de 15 MB para el rastreo.

    Pero, la web es un lugar grande y ca贸tico.

    Comprender la naturaleza del l铆mite de rastreo de 15 MB y las formas de analizarlo es importante para los SEO.

    Una imagen, un video o un error pueden causar problemas de rastreo, y esta informaci贸n de SEO menos conocida puede ayudar a los proyectos a proteger su valor de b煤squeda org谩nica.

    Encuentre recursos de m谩s de 15 MB para un mejor rastreo de Googlebot

    驴El l铆mite de rastreo de Googlebot de 15 MB es solo para documentos HTML?

    No.

    El l铆mite de rastreo de Googlebot de 15 MB es para todos los documentos indexables y rastreables, incluidos Google Earth, Hancom Hanword (.hwp), texto de OpenOffice (.odt) y formato de texto enriquecido (.rtf) u otros tipos de archivos compatibles con Googlebot.

    驴Se suman los tama帽os de imagen y video con el documento HTML?

    No, cada recurso se eval煤a por separado seg煤n el l铆mite de rastreo de 15 MB.

    Si el documento HTML tiene 14,99 MB y la imagen destacada del documento HTML vuelve a tener 14,99 MB, ambos ser谩n rastreados y utilizados por Googlebot.

    El tama帽o del documento HTML no se suma a los recursos que est谩n vinculados a trav茅s de etiquetas HTML.

    驴El CSS en l铆nea, JS o URI de datos inflan el tama帽o del documento HTML?

    S铆, el CSS en l铆nea, JS o el URI de datos se cuentan y se utilizan en el tama帽o del documento HTML.

    Por lo tanto, si el documento supera los 15 MB debido a recursos y comandos en l铆nea, afectar谩 la capacidad de rastreo del documento HTML espec铆fico.

    驴Google deja de rastrear el recurso si tiene m谩s de 15 MB?

    No, los sistemas de rastreo de Google no dejan de rastrear los recursos que superan el l铆mite de 15 MB.

    Contin煤an buscando el archivo y usan solo la parte m谩s peque帽a que los 15 MB.

    Para una imagen de m谩s de 15 MB, Googlebot puede fragmentar la imagen hasta los 15 MB con la ayuda del 芦rango de contenido禄.

    Content-Range es un encabezado de respuesta que ayuda a Googlebot u otros rastreadores y solicitantes a realizar solicitudes parciales.

    驴C贸mo auditar el tama帽o del recurso manualmente?

    Puedes usar Herramientas para desarrolladores de Google Chrome para auditar el tama帽o del recurso manualmente.

    Siga los pasos a continuaci贸n en Google Chrome.

    • Abra un documento de p谩gina web a trav茅s de Google Chrome.
    • Presione F12.
    • Vaya a la pesta帽a Red.
    • Actualizar la p谩gina web.
    • Ordena los recursos seg煤n la Cascada.
    • Comprobar el Talla columna en la primera fila, que muestra el tama帽o del documento HTML.

    A continuaci贸n, puede ver un ejemplo de un documento HTML de la p谩gina de inicio de searchenginejournal.com, que tiene m谩s de 77 KB.

    resultados de html de la p谩gina de inicio de la revista del motor de b煤squedaCaptura de pantalla del autor, agosto de 2022

    驴C贸mo auditar el tama帽o de los recursos de forma autom谩tica y masiva?

    Utilice Python para auditar el tama帽o del documento HTML de forma autom谩tica y masiva. Advertools y Pandas son dos bibliotecas de Python 煤tiles para automatizar y escalar tareas de SEO.

    Sigue las instrucciones de abajo.

    • Importar Advertools y Pandas.
    • Recopile todas las URL en el mapa del sitio.
    • Rastrear todas las URL en el mapa del sitio.
    • Filtre las URL con su tama帽o HTML.
    import advertools as adv
    
    import pandas as pd
    
    df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")
    
    adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})
    
    df = pd.read_json("output.jl", lines=True)
    
    df[["url", "size"]].sort_values(by="size", ascending=False)

    El bloque de c贸digo anterior extrae las URL del mapa del sitio y las rastrea.

    La 煤ltima l铆nea del c贸digo es solo para crear un marco de datos con un orden descendente seg煤n los tama帽os.

    URL y tama帽o de Holisticseo.comImagen creada por el autor, agosto de 2022

    Puede ver los tama帽os de los documentos HTML como se muestra arriba.

    El documento HTML m谩s grande en este ejemplo tiene alrededor de 700 KB, que es una p谩gina de categor铆a.

    Por lo tanto, este sitio web es seguro para restricciones de 15 MB. Pero, podemos comprobar m谩s all谩 de esto.

    驴C贸mo verificar los tama帽os de los recursos CSS y JS?

    Titiritero se utiliza para comprobar el tama帽o de los recursos CSS y JS.

    Titiritero es un paquete de NodeJS para controlar Google Chrome con modo sin cabeza para la automatizaci贸n del navegador y las pruebas de sitios web.

    La mayor铆a de los profesionales de SEO utilizan Lighthouse o la API de Page Speed 鈥嬧婭nsights para sus pruebas de rendimiento. Pero, con la ayuda de Puppeteer, se pueden analizar todos los aspectos t茅cnicos y de simulaci贸n.

    Siga el bloque de c贸digo a continuaci贸n.

    const puppeteer = require('puppeteer');
    
    const XLSX = require("xlsx");
    
    const path = require("path");
    
    
    
    
    (async () => {
    
    聽聽聽聽const browser = await puppeteer.launch({
    
    聽聽聽聽聽聽聽聽headless: false
    
    聽聽聽聽});
    
    
    
    
    聽聽聽聽const page = await browser.newPage();
    
    聽聽聽聽await page.goto('https://www.holisticseo.digital');
    
    聽聽聽聽console.log('Page loaded');
    
    聽聽聽聽const perfEntries = JSON.parse(
    
    聽聽聽聽聽聽聽聽await page.evaluate(() => JSON.stringify(performance.getEntries()))
    
    聽聽聽聽聽聽);
    
    聽聽聽聽聽
    
    聽聽聽聽聽聽console.log(perfEntries);
    
    聽聽聽聽聽
    
    聽聽聽聽聽聽const workSheetColumnName = [
    
    聽聽聽聽聽聽聽聽聽聽"name",
    
    聽聽聽聽聽聽聽聽聽聽"transferSize",
    
    聽聽聽聽聽聽聽聽聽聽"encodedSize",
    
    聽聽聽聽聽聽聽聽聽聽"decodedSize"
    
    聽聽聽聽聽聽聽聽聽聽]
    
    聽聽聽聽聽聽聽聽聽聽const urlObject = new URL("https://www.holisticseo.digital")
    
    聽聽聽聽聽聽聽聽聽聽const hostName = urlObject.hostname
    
    聽聽聽聽聽聽聽聽聽聽const domainName = hostName.replace("\www.|.com", "");
    
    聽聽聽聽聽聽聽聽聽聽console.log(hostName)
    
    聽聽聽聽聽聽聽聽聽聽console.log(domainName)
    
    聽聽聽聽聽聽聽聽聽聽const workSheetName = "Users";
    
    聽聽聽聽聽聽聽聽聽聽const filePath = `./${domainName}`;
    
    聽聽聽聽聽聽聽聽聽聽const userList = perfEntries;
    
    聽聽聽聽聽聽聽聽聽
    
    聽聽聽聽聽聽聽聽聽
    
    聽聽聽聽聽聽聽聽聽聽const exportPerfToExcel = (userList) => {
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽const data = perfEntries.map(url => {
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽})
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽const workBook = XLSX.utils.book_new();
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽const workSheetData = [
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽workSheetColumnName,
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽聽...data
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽]
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽XLSX.writeFile(workBook, path.resolve(filePath));
    
    聽聽聽聽聽聽聽聽聽聽聽聽聽聽return true;
    
    聽聽聽聽聽聽聽聽聽
    
    聽聽聽聽聽聽聽聽聽聽}
    
    聽聽聽聽聽聽聽聽聽聽exportPerfToExcel(userList)
    
    聽聽聽聽聽聽聽
    
    聽聽聽聽聽聽聽聽聽聽//browser.close();
    
    聽聽聽
    
    })();

    Si no sabe JavaScript o no termin贸 ning煤n tipo de tutorial de Puppeteer, puede que le resulte un poco m谩s dif铆cil comprender estos bloques de c贸digo. Pero, en realidad es simple.

    B谩sicamente, abre una URL, toma todos los recursos y proporciona su 芦Tama帽o de transferencia禄, 芦Tama帽o codificado禄 y 芦Tama帽o decodificado禄.

    En este ejemplo, 芦decodedSize禄 es el tama帽o en el que debemos centrarnos. A continuaci贸n, puede ver el resultado en forma de archivo XLS.

    Tama帽os de recursosTama帽os de bytes de los recursos del sitio web.

    Si desea volver a automatizar estos procesos para cada URL, deber谩 usar un bucle for en el comando 芦await.page.goto()禄.

    Seg煤n sus preferencias, puede colocar cada p谩gina web en una hoja de trabajo diferente o adjuntarla a la misma hoja de trabajo agreg谩ndola.

    Conclusi贸n

    La restricci贸n de rastreo de 15 MB de Googlebot es una posibilidad rara que bloquear谩 sus procesos t茅cnicos de SEO por ahora, pero HTTPArchive.org muestra que los tama帽os promedio de video, imagen y JavaScript han aumentado en los 煤ltimos a帽os.

    El tama帽o medio de la imagen en el escritorio ha superado 1 MB.

    Serie temporal de bytes de imagenCaptura de pantalla del autor, agosto de 2022

    Los bytes de video superan los 5 MB en total.

    Series temporales de bytes de videoCaptura de pantalla del autor, agosto de 2022

    En otras palabras, de vez en cuando, Googlebot puede omitir estos recursos, o algunas partes de estos recursos.

    Por lo tanto, deber铆a poder controlarlos autom谩ticamente, con m茅todos masivos para hacer tiempo y no saltar.

    M谩s recursos:

    Imagen destacada: BestForBest/Shutterstock

    Populares

    M谩s de esta categor铆a

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aqu铆

    Este sitio usa Akismet para reducir el spam. Aprende c贸mo se procesan los datos de tus comentarios.