M谩s

    Introducci贸n a las incrustaciones de texto de LLM para SEO con ejemplos

    - Advertisement -

    Si es un profesional de SEO o un especialista en marketing digital y lee este art铆culo, es posible que haya experimentado con IA y chatbots en su trabajo diario.

    Pero la pregunta es: 驴c贸mo se puede aprovechar al m谩ximo la IA adem谩s de utilizar una interfaz de usuario de chatbot?

    Para ello, necesita una comprensi贸n profunda de c贸mo funcionan los modelos de lenguaje grandes (LLM) y aprender el nivel b谩sico de codificaci贸n. Y s铆, la codificaci贸n es absolutamente necesaria para tener 茅xito como profesional de SEO hoy en d铆a.

    Este es el primero de un serie de art铆culos que tienen como objetivo mejorar sus habilidades para que pueda comenzar a usar LLM para escalar sus tareas de SEO. Creemos que en el futuro, esta habilidad ser谩 necesaria para tener 茅xito.

    Necesitamos empezar desde lo b谩sico. Incluir谩 informaci贸n esencial, por lo que m谩s adelante en esta serie podr谩 utilizar los LLM para escalar sus esfuerzos de SEO o marketing para las tareas m谩s tediosas.

    A diferencia de otros art铆culos similares que haya le铆do, comenzaremos aqu铆 desde el final. El siguiente v铆deo ilustra lo que podr谩 hacer despu茅s de leer todos los art铆culos de la serie sobre c贸mo utilizar los LLM para SEO.

    Nuestro equipo utiliza esta herramienta para agilizar los enlaces internos manteniendo la supervisi贸n humana.

    驴Te gust贸? Esto es lo que podr谩s construir t煤 mismo muy pronto.

    Ahora, comencemos con lo b谩sico y le proporcionemos los conocimientos previos necesarios en LLM.

    TOC

  • 1. 驴Qu茅 son los vectores?
  • 2. 驴Qu茅 es la incrustaci贸n de texto?
  • 3. 驴Qu茅 es la normalizaci贸n L2?
  • 4. Conclusi贸n
  • 驴Qu茅 son los vectores?

    En matem谩ticas, los vectores son objetos descritos por una lista ordenada de n煤meros (componentes) correspondientes a las coordenadas en el espacio vectorial.

    Un ejemplo simple de vector es un vector en un espacio bidimensional, que est谩 representado por (x,y) coordenadas como se ilustra a continuaci贸n.

    Vector bidimensional de muestra con coordenadas x=13 e y=8 notadas como (13,8)

    En este caso, la coordenada x=13 representa la longitud de la proyecci贸n del vector en el eje X, y y=8 representa la longitud de la proyecci贸n del vector en el eje Y.

    Los vectores que se definen con coordenadas tienen una longitud, que se llama magnitud de un vector o norma. Para nuestro caso simplificado bidimensional, se calcula mediante la f贸rmula:

    L=(x1)2+(y1)2

    Sin embargo, los matem谩ticos siguieron adelante y definieron vectores con un n煤mero arbitrario de coordenadas abstractas (X1, X2, X3鈥 Xn), lo que se denomina Vector 鈥淣-dimensional鈥.

    En el caso de un vector en el espacio tridimensional, ser铆an tres n煤meros (x,y,z), que a煤n podemos interpretar y comprender, pero cualquier cosa por encima de eso est谩 fuera de nuestra imaginaci贸n, y todo se convierte en un concepto abstracto.

    Y aqu铆 es donde entran en juego las incorporaciones de LLM.

    驴Qu茅 es la incrustaci贸n de texto?

    Las incrustaciones de texto son un subconjunto de incrustaciones LLM, que son vectores abstractos de alta dimensi贸n que representan texto y capturan contextos sem谩nticos y relaciones entre palabras.

    En la jerga de LLM, las 芦palabras禄 se denominan tokens de datos y cada palabra es un token. De manera m谩s abstracta, las incrustaciones son representaciones num茅ricas de esos tokens, que codifican relaciones entre cualquier token de datos (unidades de datos), donde un token de datos puede ser una imagen, una grabaci贸n de sonido, un texto o un cuadro de video.

    Para calcular qu茅 tan cercanas est谩n sem谩nticamente las palabras, necesitamos convertirlas en n煤meros. As铆 como restas n煤meros (por ejemplo, 10-6=4) y puedes saber que la distancia entre 10 y 6 es 4 puntos, es posible restar vectores y calcular qu茅 tan cerca est谩n los dos vectores.

    Por lo tanto, comprender las distancias vectoriales es importante para comprender c贸mo funcionan los LLM.

    Hay diferentes formas de medir qu茅 tan cerca est谩n los vectores:

  • Distancia euclidiana.
  • Semejanza o distancia del coseno.
  • Similitud con Jaccard.
  • Distancia de Manhattan.
  • Cada uno tiene sus propios casos de uso, pero discutiremos solo las distancias euclidianas y cosenos de uso com煤n.

    驴Qu茅 es la similitud del coseno?

    Mide el coseno del 谩ngulo entre dos vectores, es decir, qu茅 tan cerca est谩n alineados esos dos vectores entre s铆.

    Distancia euclidiana versus similitud del cosenoDistancia euclidiana versus similitud del coseno

    Se define de la siguiente manera:

    porque鈦(伪)=A鈰匓鈭鈭b媴鈭鈭

    Donde el producto escalar de dos vectores se divide por el producto de sus magnitudes, tambi茅n conocidas como longitudes.

    Sus valores van desde -1, que significa completamente opuesto, hasta 1, que significa id茅ntico. Un valor de 鈥0鈥 significa que los vectores son perpendiculares.

    En t茅rminos de incrustaciones de texto, es poco probable lograr el valor exacto de similitud de coseno de -1, pero aqu铆 hay ejemplos de textos con 0 o 1 similitudes de coseno.

    Similitud del coseno = 1 (id茅ntico)

  • 鈥淟as 10 mejores joyas escondidas para viajeros solitarios en San Francisco鈥
  • 鈥淟as 10 mejores joyas escondidas para viajeros solitarios en San Francisco鈥
  • 鈥婨stos textos son id茅nticos, por lo que sus incrustaciones ser铆an las mismas, lo que dar铆a como resultado una similitud coseno de 1.

    Similitud del coseno = 0 (perpendicular, lo que significa no relacionado)

  • 芦Mec谩nica cu谩ntica禄
  • 鈥淢e encantan los d铆as lluviosos鈥
  • 鈥婨stos textos no tienen ninguna relaci贸n, lo que resulta en una similitud coseno de 0 entre sus BERT incrustaciones.

    Sin embargo, si ejecuta el modelo de incrustaci贸n de Google Vertex AI 鈥榲ista previa-de-incrustaci贸n-de-texto-0409鈥, obtendr谩s 0,3. Con OpenAi 鈥榠ncrustaci贸n de texto-3-grande鈥 modelos, obtendr谩s 0,017.

    (Nota: aprenderemos en los pr贸ximos cap铆tulos en detalle practicando con incrustaciones usando Python y Jupyter).

    Modelo de texto-'embedding-preview-0409' de Vertex Ai

    Modelo de texto-鈥榠ncrustaci贸n-preview-0409鈥 de Vertex Ai

    Modelo de 'incrustaci贸n de texto-3-peque帽o' de OpenAi

    Modelo de 鈥榠ncrustaci贸n de texto-3-peque帽o鈥 de OpenAi

    Nos saltamos el caso con similitud de coseno = -1 porque es muy poco probable que suceda.

    Si intenta obtener similitud de coseno para texto con significados opuestos como 芦amor禄 versus 芦odio禄 o 芦el proyecto exitoso禄 versus 芦el proyecto fallido禄, obtendr谩 una similitud de coseno de 0,5-0,6 con Google Vertex AI. 鈥榲ista previa-de-incrustaci贸n-de-texto-0409鈥 modelo.

    Esto se debe a que las palabras 芦amor禄 y 芦odio禄 a menudo aparecen en contextos similares relacionados con las emociones, y 芦exitoso禄 y 芦fracaso禄 est谩n relacionados con los resultados del proyecto. Los contextos en los que se utilizan pueden superponerse significativamente en los datos de entrenamiento.

    La similitud del coseno se puede utilizar para las siguientes tareas de SEO:

  • Clasificaci贸n.
  • Agrupaci贸n de palabras clave.
  • Implementaci贸n de redirecciones.
  • Vinculaci贸n interna.
  • Detecci贸n de contenido duplicado.
  • Recomendaci贸n de contenido.
  • An谩lisis de la competencia.
  • La similitud del coseno se centra en la direcci贸n de los vectores (el 谩ngulo entre ellos) en lugar de su magnitud (longitud). Como resultado, puede capturar similitudes sem谩nticas y determinar qu茅 tan cerca se alinean dos contenidos, incluso si uno es mucho m谩s largo o usa m谩s palabras que el otro.

    Bucear profundamente y explorar cada uno de estos ser谩 el objetivo de pr贸ximos art铆culos publicaremos.

    驴Qu茅 es la distancia euclidiana?

    En caso de que tenga dos vectores A(X1,Y1) y B(X2,Y2), el distancia euclidiana se calcula mediante la siguiente f贸rmula:

    D=(x2鈭抶1)2+(y2鈭抷1)2

    Es como usar una regla para medir la distancia entre dos puntos (la l铆nea roja en el cuadro de arriba).

    La distancia euclidiana se puede utilizar para las siguientes tareas de SEO:

  • Evaluar la densidad de palabras clave en el contenido.
  • Encontrar contenido duplicado con una estructura similar.
  • An谩lisis de la distribuci贸n del texto de anclaje.
  • Agrupaci贸n de palabras clave.
  • A continuaci贸n se muestra un ejemplo de c谩lculo de distancia euclidiana con un valor de 0,08, casi cercano a 0, para contenido duplicado donde los p谩rrafos simplemente se intercambian, lo que significa que la distancia es 0, es decir, el contenido que comparamos es el mismo.

    Ejemplo de c谩lculo de distancia euclidiana de contenido duplicadoEjemplo de c谩lculo de distancia euclidiana de contenido duplicado

    Por supuesto, puede utilizar la similitud del coseno y detectar谩 contenido duplicado con una similitud del coseno de 0,9 sobre 1 (casi id茅ntico).

    Aqu铆 hay un punto clave para recordar: no debe confiar simplemente en la similitud del coseno, sino que tambi茅n debe utilizar otros m茅todos, como El trabajo de investigaci贸n de Netflix sugiere que el uso de la similitud del coseno puede conducir a 芦similitudes禄 sin sentido.

    Mostramos que la similitud coseno de las incorporaciones aprendidas puede, de hecho, producir resultados arbitrarios. Descubrimos que la raz贸n subyacente no es la similitud coseno en s铆, sino el hecho de que las incorporaciones aprendidas tienen un grado de libertad que puede generar similitudes cosenos arbitrarias.

    Como profesional de SEO, no es necesario que pueda comprender completamente ese documento, pero recuerde que las investigaciones muestran que se deben considerar otros m茅todos a distancia, como el euclidiano, en funci贸n de las necesidades del proyecto y el resultado que se obtenga para reducir las falsas expectativas. resultados positivos.

    驴Qu茅 es la normalizaci贸n L2?

    La normalizaci贸n L2 es una transformaci贸n matem谩tica aplicada a vectores para convertirlos en vectores unitarios con una longitud de 1.

    Para explicarlo en t茅rminos simples, digamos que Bob y Alice caminaron una larga distancia. Ahora queremos comparar sus direcciones. 驴Siguieron caminos similares o tomaron direcciones completamente diferentes?

    Un plano cartesiano con 'Alice' representada por un punto rojo en el cuadrante superior derecho y 'Bob' representado por un punto verde.芦Alice禄 est谩 representada por un punto rojo en el cuadrante superior derecho y 芦Bob禄 est谩 representado por un punto verde.

    Sin embargo, como est谩n lejos de su origen, tendremos dificultades para medir el 谩ngulo entre sus trayectorias porque han ido demasiado lejos.

    Por otro lado, no podemos afirmar que si est谩n lejos uno del otro significa que sus caminos son diferentes.

    La normalizaci贸n L2 es como llevar a Alice y Bob a la misma distancia m谩s cercana desde el punto de partida, digamos a un pie del origen, para que sea m谩s f谩cil medir el 谩ngulo entre sus trayectorias.

    Ahora vemos que, aunque est谩n muy separados, las direcciones de sus trayectorias son bastante cercanas.

    Un plano cartesiano con un c铆rculo centrado en el origen.Un plano cartesiano con un c铆rculo centrado en el origen.

    Esto significa que hemos eliminado el efecto de sus diferentes longitudes de trayectoria (tambi茅n conocidas como magnitud de vectores) y podemos centrarnos exclusivamente en la direcci贸n de sus movimientos.

    En el contexto de las incrustaciones de texto, esta normalizaci贸n nos ayuda a centrarnos en la similitud sem谩ntica entre textos (la direcci贸n de los vectores).

    La mayor铆a de los modelos de incrustaci贸n, como los modelos 鈥榯ext-embedding-3-large鈥 de OpeanAI o 鈥榯ext-embedding-preview-0409鈥 de Google Vertex AI, devuelven incrustaciones prenormalizadas, lo que significa que no es necesario normalizar.

    Pero, por ejemplo, el modelo BERT. 鈥榖ert-base-sin caja鈥 las incrustaciones no est谩n prenormalizadas.

    Conclusi贸n

    Este fue el cap铆tulo introductorio de nuestra serie de art铆culos para familiarizarlo con la jerga de los LLM, que espero que haya hecho que la informaci贸n sea accesible sin necesidad de un doctorado en matem谩ticas.

    Si todav铆a tienes problemas para memorizarlos, no te preocupes. A medida que cubrimos las siguientes secciones, nos referiremos a las definiciones definidas aqu铆 y usted podr谩 comprenderlas a trav茅s de la pr谩ctica.

    Los pr贸ximos cap铆tulos ser谩n a煤n m谩s interesantes:

    • Introducci贸n a las incrustaciones de texto de OpenAI con ejemplos.
    • Introducci贸n a las incrustaciones de texto Vertex AI de Google con ejemplos.
    • Introducci贸n a las bases de datos vectoriales.
    • C贸mo utilizar incrustaciones de LLM para enlaces internos.
    • C贸mo utilizar incrustaciones de LLM para implementar redirecciones a escala.
    • Poni茅ndolo todo junto: complemento de WordPress basado en LLM para enlaces internos.

    El objetivo es mejorar tus habilidades y prepararte para enfrentar desaf铆os en SEO.

    Muchos de ustedes pueden decir que hay herramientas que pueden comprar y que hacen este tipo de cosas autom谩ticamente, pero esas herramientas no podr谩n realizar muchas tareas espec铆ficas seg煤n las necesidades de su proyecto, que requieren un enfoque personalizado.

    Usar herramientas de SEO siempre es genial, 隆pero tener habilidades es a煤n mejor!

    M谩s recursos:

    Imagen destacada: Krot_Studio/Shutterstock

    Fuente: Introducci贸n a las incrustaciones de texto de LLM para SEO con ejemplos

    Populares

    M谩s de esta categor铆a

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aqu铆

    Este sitio usa Akismet para reducir el spam. Aprende c贸mo se procesan los datos de tus comentarios.