M谩s

    Google Memo filtrado admite la derrota de la IA de c贸digo abierto

    - Advertisement -

    Una nota filtrada de Google ofrece un resumen punto por punto de por qu茅 Google est谩 perdiendo frente a la IA de c贸digo abierto y sugiere un camino de regreso al dominio y a la propiedad de la plataforma.

    El memorando comienza reconociendo que su competidor nunca fue OpenAI y siempre iba a ser de c贸digo abierto.

    No puede competir contra el c贸digo abierto

    Adem谩s, admiten que no est谩n posicionados de ninguna manera para competir contra el c贸digo abierto, reconociendo que ya han perdido la lucha por el dominio de la IA.

    Ellos escribieron:

    鈥淗emos mirado mucho sobre nuestros hombros en OpenAI. 驴Qui茅n cruzar谩 el pr贸ximo hito? 驴Cu谩l ser谩 el pr贸ximo movimiento?

    Pero la verdad inc贸moda es que no estamos posicionados para ganar esta carrera armamentista y OpenAI tampoco. Mientras nos peleamos, una tercera facci贸n ha estado comiendo nuestro almuerzo en silencio.

    Estoy hablando, por supuesto, de c贸digo abierto.

    En pocas palabras, nos est谩n lamiendo. Las cosas que consideramos 鈥減rincipales problemas abiertos鈥 est谩n resueltas y en manos de la gente hoy鈥.

    La mayor parte del memorando se dedica a describir c贸mo el c贸digo abierto supera a Google.

    Y aunque Google tiene una ligera ventaja sobre el c贸digo abierto, el autor del memor谩ndum reconoce que se est谩 escapando y nunca volver谩.

    El autoan谩lisis de las cartas metaf贸ricas que ellos mismos han repartido es considerablemente pesimista:

    鈥淢ientras que nuestros modelos todav铆a tienen una ligera ventaja en t茅rminos de calidad, la brecha se est谩 cerrando asombrosamente r谩pido.

    Los modelos de c贸digo abierto son m谩s r谩pidos, m谩s personalizables, m谩s privados y, libra por libra, m谩s capaces.

    Est谩n haciendo cosas con par谩metros de $ 100 y 13 mil millones con los que luchamos a $ 10 millones y 540 mil millones.

    Y lo est谩n haciendo en semanas, no en meses鈥.

    El tama帽o grande del modelo de idioma no es una ventaja

    Quiz谩s la realizaci贸n m谩s escalofriante expresada en el memorando es que el tama帽o de Google ya no es una ventaja.

    El tama帽o extravagantemente grande de sus modelos ahora se ve como desventajas y de ninguna manera como la ventaja insuperable que pensaban que eran.

    El memorando filtrado enumera una serie de eventos que indican que el control de la IA por parte de Google (y OpenAI) puede terminar r谩pidamente.

    Cuenta que hace apenas un mes, en marzo de 2023, la comunidad de c贸digo abierto obtuvo un modelo de c贸digo abierto filtrado de lenguaje grande desarrollado por Meta llamado LLaMA.

    En cuesti贸n de d铆as y semanas, la comunidad global de c贸digo abierto desarroll贸 todas las piezas de construcci贸n necesarias para crear clones de Bard y ChatGPT.

    Pasos sofisticados como el ajuste de instrucciones y el aprendizaje reforzado a partir de comentarios humanos (RLHF) fueron replicados r谩pidamente por la comunidad global de c贸digo abierto, nada menos que a bajo precio.

    • Ajuste de instrucciones
      Un proceso de ajuste fino de un modelo de lenguaje para que haga algo espec铆fico para lo que no estaba capacitado inicialmente.
    • Aprendizaje por refuerzo a partir de la retroalimentaci贸n humana (RLHF)
      Una t茅cnica en la que los humanos califican la salida de un modelo de lenguaje para que aprenda qu茅 salidas son satisfactorias para los humanos.

    RLHF es la t茅cnica utilizada por OpenAI para crear InstructGPT, que es un modelo subyacente de ChatGPT y permite que los modelos GPT-3.5 y GPT-4 tomen instrucciones y completen tareas.

    RLHF es el fuego que el c贸digo abierto ha tomado de

    La escala del c贸digo abierto asusta a Google

    Lo que asusta a Google en particular es el hecho de que el movimiento de c贸digo abierto puede escalar sus proyectos de una manera que el c贸digo cerrado no puede.

    El conjunto de datos de preguntas y respuestas utilizado para crear el clon de ChatGPT de c贸digo abierto, Dolly 2.0, fue creado en su totalidad por miles de empleados voluntarios.

    Google y OpenAI se basaron parcialmente en preguntas y respuestas extra铆das de sitios como Reddit.

    Se afirma que el conjunto de datos de preguntas y respuestas de c贸digo abierto creado por Databricks es de mayor calidad porque los humanos que contribuyeron a crearlo eran profesionales y las respuestas que proporcionaron fueron m谩s largas y m谩s sustanciales que las que se encuentran en un conjunto de datos t铆pico de preguntas y respuestas extra铆do de un foro publico.

    La nota filtrada observ贸:

    鈥淎 principios de marzo, la comunidad de c贸digo abierto consigui贸 su primer modelo base realmente capaz, ya que LLaMA de Meta se filtr贸 al p煤blico.

    No ten铆a instrucciones ni sintonizaci贸n de conversaci贸n, ni RLHF.

    Sin embargo, la comunidad entendi贸 de inmediato el significado de lo que se les hab铆a dado.

    Sigui贸 una tremenda efusi贸n de innovaci贸n, con solo unos d铆as entre los principales desarrollos…

    Aqu铆 estamos, apenas un mes despu茅s, y hay variantes con ajuste de instrucciones, cuantizaci贸n, mejoras de calidad, evaluaciones humanas, multimodalidad, RLHF, etc., muchas de las cuales se complementan entre s铆.

    Lo m谩s importante es que han resuelto el problema de la escala en la medida en que cualquiera puede modificarlo.

    Muchas de las nuevas ideas provienen de la gente com煤n.

    La barrera de entrada para la capacitaci贸n y la experimentaci贸n se ha reducido de la producci贸n total de una importante organizaci贸n de investigaci贸n a una persona, una noche y una computadora port谩til robusta鈥.

    En otras palabras, lo que tom贸 meses y a帽os para que Google y OpenAI entrenaran y construyeran, solo tom贸 unos d铆as para la comunidad de c贸digo abierto.

    Ese tiene que ser un escenario verdaderamente aterrador para Google.

    Es una de las razones por las que he estado escribiendo tanto sobre el movimiento de la IA de c贸digo abierto, ya que realmente parece que el futuro de la IA generativa estar谩 en un per铆odo de tiempo relativamente corto.

    El c贸digo abierto ha superado hist贸ricamente al c贸digo cerrado

    El memor谩ndum cita la experiencia reciente con DALL-E de OpenAI, el modelo de aprendizaje profundo utilizado para crear im谩genes en comparaci贸n con la difusi贸n estable de c贸digo abierto como un presagio de lo que est谩 ocurriendo actualmente en la IA generativa como Bard y ChatGPT.

    OpenAI lanz贸 Dall-e en enero de 2021. Stable Diffusion, la versi贸n de c贸digo abierto, se lanz贸 un a帽o y medio despu茅s, en agosto de 2022, y en unas pocas semanas super贸 la popularidad de Dall-E.

    Este gr谩fico de l铆nea de tiempo muestra qu茅 tan r谩pido Stable Diffusion super贸 a Dall-E:

    La l铆nea de tiempo de Google Trends anterior muestra c贸mo el inter茅s en el modelo de difusi贸n estable de c贸digo abierto super贸 ampliamente al de Dall-E en cuesti贸n de tres semanas de su lanzamiento.

    Y aunque Dall-E estuvo fuera durante un a帽o y medio, el inter茅s en Stable Diffusion sigui贸 aumentando exponencialmente, mientras que Dall-E de OpenAI permaneci贸 estancado.

    La amenaza existencial de que eventos similares superen a Bard (y OpenAI) le est谩 dando pesadillas a Google.

    El proceso de creaci贸n del modelo de c贸digo abierto es superior

    Otro factor que alarma a los ingenieros de Google es que el proceso para crear y mejorar los modelos de c贸digo abierto es r谩pido, econ贸mico y se presta perfectamente a un enfoque colaborativo global com煤n a los proyectos de c贸digo abierto.

    El memor谩ndum observa que las nuevas t茅cnicas como LoRA (Adaptaci贸n de rango bajo de modelos de lenguaje grande), permiten el ajuste fino de los modelos de lenguaje en cuesti贸n de d铆as con un costo extremadamente bajo, con el LLM final comparable a los LLM mucho m谩s caros. creado por Google y OpenAI.

    Otro beneficio es que los ingenieros de c贸digo abierto pueden construir sobre el trabajo anterior, iterar, en lugar de tener que empezar desde cero.

    Construir grandes modelos de lenguaje con miles de millones de par谩metros en la forma en que OpenAI y Google lo han estado haciendo hoy en d铆a no es necesario.

    Ese puede ser el punto que Sam Alton insinu贸 recientemente cuando dijo que la era de los modelos masivos de lenguaje grande ha terminado.

    El autor del memor谩ndum de Google compar贸 el enfoque barato y r谩pido de LoRA para crear LLM con el enfoque actual de la gran IA.

    El autor del memorando reflexiona sobre las deficiencias de Google:

    鈥淧or el contrario, entrenar modelos gigantes desde cero no solo descarta el entrenamiento previo, sino tambi茅n cualquier mejora iterativa que se haya realizado en la parte superior. En el mundo del c贸digo abierto, no pasa mucho tiempo antes de que dominen estas mejoras, lo que hace que una capacitaci贸n completa sea extremadamente costosa.

    Deber铆amos considerar si cada nueva aplicaci贸n o idea realmente necesita un modelo completamente nuevo.

    鈥 De hecho, en t茅rminos de horas de ingenier铆a, el ritmo de mejora de estos modelos supera ampliamente lo que podemos hacer con nuestras variantes m谩s grandes, y los mejores ya son en gran medida indistinguibles de ChatGPT鈥.

    El autor concluye d谩ndose cuenta de que lo que pensaban que era su ventaja, sus modelos gigantes y el costo prohibitivo concomitante, en realidad era una desventaja.

    La naturaleza de colaboraci贸n global del c贸digo abierto es m谩s eficiente y mucho m谩s r谩pida en la innovaci贸n.

    驴C贸mo puede un sistema de c贸digo cerrado competir contra la abrumadora multitud de ingenieros de todo el mundo?

    El autor concluye que no pueden competir y que la competencia directa es, en sus palabras, una 鈥減ropuesta perdedora鈥.

    Esa es la crisis, la tormenta, que se est谩 desarrollando fuera de Google.

    Si no puedes vencer el c贸digo abierto, 煤nete a ellos

    El 煤nico consuelo que el autor de la nota encuentra en el c贸digo abierto es que, debido a que las innovaciones de c贸digo abierto son gratuitas, Google tambi茅n puede aprovecharlas.

    Por 煤ltimo, el autor concluye que el 煤nico enfoque disponible para Google es poseer la plataforma de la misma manera que dominan las plataformas de c贸digo abierto Chrome y Android.

    Se帽alan c贸mo Meta se est谩 beneficiando del lanzamiento de su modelo de lenguaje grande LLaMA para la investigaci贸n y c贸mo ahora tienen a miles de personas haciendo su trabajo de forma gratuita.

    Quiz谩s la gran conclusi贸n del memor谩ndum es que, en un futuro cercano, Google puede intentar replicar su dominio de c贸digo abierto lanzando sus proyectos sobre una base de c贸digo abierto y, por lo tanto, poseer la plataforma.

    El memorando concluye que pasar al c贸digo abierto es la opci贸n m谩s viable:

    鈥淕oogle deber铆a establecerse como l铆der en la comunidad de c贸digo abierto, tomando la iniciativa cooperando con, en lugar de ignorar, la conversaci贸n m谩s amplia.

    Esto probablemente signifique tomar algunos pasos inc贸modos, como publicar los pesos del modelo para variantes peque帽as de ULM. Esto necesariamente significa renunciar a cierto control sobre nuestros modelos.

    Pero este compromiso es inevitable.

    No podemos esperar impulsar la innovaci贸n y controlarla鈥.

    El c贸digo abierto se va con el fuego de la IA

    La semana pasada hice una alusi贸n al mito griego del h茅roe humano Prometeo robando el fuego de los dioses en el Monte Olimpo, enfrentando el c贸digo abierto de Prometeo contra los 芦dioses ol铆mpicos禄 de Google y OpenAI:

    I tuite贸:

    鈥淢ientras Google, Microsoft y Open AI se pelean entre s铆 y se dan la espalda, 驴el c贸digo abierto se est谩 yendo con su fuego?鈥

    La filtraci贸n del memorando de Google confirma esa observaci贸n, pero tambi茅n apunta a un posible cambio de estrategia en Google para unirse al movimiento de c贸digo abierto y, por lo tanto, cooptarlo y dominarlo de la misma manera que lo hicieron con Chrome y Android.

    Lea la nota de Google filtrada aqu铆:

    Google 芦No tenemos foso, y OpenAI tampoco禄


    Fuente: Google Memo filtrado admite la derrota de la IA de c贸digo abierto

    Populares

    M谩s de esta categor铆a

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aqu铆

    Este sitio usa Akismet para reducir el spam. Aprende c贸mo se procesan los datos de tus comentarios.