Una nota filtrada de Google ofrece un resumen punto por punto de por qué Google está perdiendo frente a la IA de código abierto y sugiere un camino de regreso al dominio y a la propiedad de la plataforma.
El memorando comienza reconociendo que su competidor nunca fue OpenAI y siempre iba a ser de código abierto.
No puede competir contra el código abierto
Además, admiten que no están posicionados de ninguna manera para competir contra el código abierto, reconociendo que ya han perdido la lucha por el dominio de la IA.
Ellos escribieron:
“Hemos mirado mucho sobre nuestros hombros en OpenAI. ¿Quién cruzará el próximo hito? ¿Cuál será el próximo movimiento?
Pero la verdad incómoda es que no estamos posicionados para ganar esta carrera armamentista y OpenAI tampoco. Mientras nos peleamos, una tercera facción ha estado comiendo nuestro almuerzo en silencio.
Estoy hablando, por supuesto, de código abierto.
En pocas palabras, nos están lamiendo. Las cosas que consideramos “principales problemas abiertos” están resueltas y en manos de la gente hoy”.
La mayor parte del memorando se dedica a describir cómo el código abierto supera a Google.
Y aunque Google tiene una ligera ventaja sobre el código abierto, el autor del memorándum reconoce que se está escapando y nunca volverá.
El autoanálisis de las cartas metafóricas que ellos mismos han repartido es considerablemente pesimista:
“Mientras que nuestros modelos todavía tienen una ligera ventaja en términos de calidad, la brecha se está cerrando asombrosamente rápido.
Los modelos de código abierto son más rápidos, más personalizables, más privados y, libra por libra, más capaces.
Están haciendo cosas con parámetros de $ 100 y 13 mil millones con los que luchamos a $ 10 millones y 540 mil millones.
Y lo están haciendo en semanas, no en meses”.
El tamaño grande del modelo de idioma no es una ventaja
Quizás la realización más escalofriante expresada en el memorando es que el tamaño de Google ya no es una ventaja.
El tamaño extravagantemente grande de sus modelos ahora se ve como desventajas y de ninguna manera como la ventaja insuperable que pensaban que eran.
El memorando filtrado enumera una serie de eventos que indican que el control de la IA por parte de Google (y OpenAI) puede terminar rápidamente.
Cuenta que hace apenas un mes, en marzo de 2023, la comunidad de código abierto obtuvo un modelo de código abierto filtrado de lenguaje grande desarrollado por Meta llamado LLaMA.
En cuestión de días y semanas, la comunidad global de código abierto desarrolló todas las piezas de construcción necesarias para crear clones de Bard y ChatGPT.
Pasos sofisticados como el ajuste de instrucciones y el aprendizaje reforzado a partir de comentarios humanos (RLHF) fueron replicados rápidamente por la comunidad global de código abierto, nada menos que a bajo precio.
- Ajuste de instrucciones
Un proceso de ajuste fino de un modelo de lenguaje para que haga algo específico para lo que no estaba capacitado inicialmente. - Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)
Una técnica en la que los humanos califican la salida de un modelo de lenguaje para que aprenda qué salidas son satisfactorias para los humanos.
RLHF es la técnica utilizada por OpenAI para crear InstructGPT, que es un modelo subyacente de ChatGPT y permite que los modelos GPT-3.5 y GPT-4 tomen instrucciones y completen tareas.
RLHF es el fuego que el código abierto ha tomado de
La escala del código abierto asusta a Google
Lo que asusta a Google en particular es el hecho de que el movimiento de código abierto puede escalar sus proyectos de una manera que el código cerrado no puede.
El conjunto de datos de preguntas y respuestas utilizado para crear el clon de ChatGPT de código abierto, Dolly 2.0, fue creado en su totalidad por miles de empleados voluntarios.
Google y OpenAI se basaron parcialmente en preguntas y respuestas extraídas de sitios como Reddit.
Se afirma que el conjunto de datos de preguntas y respuestas de código abierto creado por Databricks es de mayor calidad porque los humanos que contribuyeron a crearlo eran profesionales y las respuestas que proporcionaron fueron más largas y más sustanciales que las que se encuentran en un conjunto de datos típico de preguntas y respuestas extraído de un foro publico.
La nota filtrada observó:
“A principios de marzo, la comunidad de código abierto consiguió su primer modelo base realmente capaz, ya que LLaMA de Meta se filtró al público.
No tenía instrucciones ni sintonización de conversación, ni RLHF.
Sin embargo, la comunidad entendió de inmediato el significado de lo que se les había dado.
Siguió una tremenda efusión de innovación, con solo unos días entre los principales desarrollos…
Aquí estamos, apenas un mes después, y hay variantes con ajuste de instrucciones, cuantización, mejoras de calidad, evaluaciones humanas, multimodalidad, RLHF, etc., muchas de las cuales se complementan entre sí.
Lo más importante es que han resuelto el problema de la escala en la medida en que cualquiera puede modificarlo.
Muchas de las nuevas ideas provienen de la gente común.
La barrera de entrada para la capacitación y la experimentación se ha reducido de la producción total de una importante organización de investigación a una persona, una noche y una computadora portátil robusta”.
En otras palabras, lo que tomó meses y años para que Google y OpenAI entrenaran y construyeran, solo tomó unos días para la comunidad de código abierto.
Ese tiene que ser un escenario verdaderamente aterrador para Google.
Es una de las razones por las que he estado escribiendo tanto sobre el movimiento de la IA de código abierto, ya que realmente parece que el futuro de la IA generativa estará en un período de tiempo relativamente corto.
El código abierto ha superado históricamente al código cerrado
El memorándum cita la experiencia reciente con DALL-E de OpenAI, el modelo de aprendizaje profundo utilizado para crear imágenes en comparación con la difusión estable de código abierto como un presagio de lo que está ocurriendo actualmente en la IA generativa como Bard y ChatGPT.
OpenAI lanzó Dall-e en enero de 2021. Stable Diffusion, la versión de código abierto, se lanzó un año y medio después, en agosto de 2022, y en unas pocas semanas superó la popularidad de Dall-E.
Este gráfico de línea de tiempo muestra qué tan rápido Stable Diffusion superó a Dall-E:
La línea de tiempo de Google Trends anterior muestra cómo el interés en el modelo de difusión estable de código abierto superó ampliamente al de Dall-E en cuestión de tres semanas de su lanzamiento.
Y aunque Dall-E estuvo fuera durante un año y medio, el interés en Stable Diffusion siguió aumentando exponencialmente, mientras que Dall-E de OpenAI permaneció estancado.
La amenaza existencial de que eventos similares superen a Bard (y OpenAI) le está dando pesadillas a Google.
El proceso de creación del modelo de código abierto es superior
Otro factor que alarma a los ingenieros de Google es que el proceso para crear y mejorar los modelos de código abierto es rápido, económico y se presta perfectamente a un enfoque colaborativo global común a los proyectos de código abierto.
El memorándum observa que las nuevas técnicas como LoRA (Adaptación de rango bajo de modelos de lenguaje grande), permiten el ajuste fino de los modelos de lenguaje en cuestión de días con un costo extremadamente bajo, con el LLM final comparable a los LLM mucho más caros. creado por Google y OpenAI.
Otro beneficio es que los ingenieros de código abierto pueden construir sobre el trabajo anterior, iterar, en lugar de tener que empezar desde cero.
Construir grandes modelos de lenguaje con miles de millones de parámetros en la forma en que OpenAI y Google lo han estado haciendo hoy en día no es necesario.
Ese puede ser el punto que Sam Alton insinuó recientemente cuando dijo que la era de los modelos masivos de lenguaje grande ha terminado.
El autor del memorándum de Google comparó el enfoque barato y rápido de LoRA para crear LLM con el enfoque actual de la gran IA.
El autor del memorando reflexiona sobre las deficiencias de Google:
“Por el contrario, entrenar modelos gigantes desde cero no solo descarta el entrenamiento previo, sino también cualquier mejora iterativa que se haya realizado en la parte superior. En el mundo del código abierto, no pasa mucho tiempo antes de que dominen estas mejoras, lo que hace que una capacitación completa sea extremadamente costosa.
Deberíamos considerar si cada nueva aplicación o idea realmente necesita un modelo completamente nuevo.
… De hecho, en términos de horas de ingeniería, el ritmo de mejora de estos modelos supera ampliamente lo que podemos hacer con nuestras variantes más grandes, y los mejores ya son en gran medida indistinguibles de ChatGPT”.
El autor concluye dándose cuenta de que lo que pensaban que era su ventaja, sus modelos gigantes y el costo prohibitivo concomitante, en realidad era una desventaja.
La naturaleza de colaboración global del código abierto es más eficiente y mucho más rápida en la innovación.
¿Cómo puede un sistema de código cerrado competir contra la abrumadora multitud de ingenieros de todo el mundo?
El autor concluye que no pueden competir y que la competencia directa es, en sus palabras, una “propuesta perdedora”.
Esa es la crisis, la tormenta, que se está desarrollando fuera de Google.
Si no puedes vencer el código abierto, únete a ellos
El único consuelo que el autor de la nota encuentra en el código abierto es que, debido a que las innovaciones de código abierto son gratuitas, Google también puede aprovecharlas.
Por último, el autor concluye que el único enfoque disponible para Google es poseer la plataforma de la misma manera que dominan las plataformas de código abierto Chrome y Android.
Señalan cómo Meta se está beneficiando del lanzamiento de su modelo de lenguaje grande LLaMA para la investigación y cómo ahora tienen a miles de personas haciendo su trabajo de forma gratuita.
Quizás la gran conclusión del memorándum es que, en un futuro cercano, Google puede intentar replicar su dominio de código abierto lanzando sus proyectos sobre una base de código abierto y, por lo tanto, poseer la plataforma.
El memorando concluye que pasar al código abierto es la opción más viable:
“Google debería establecerse como líder en la comunidad de código abierto, tomando la iniciativa cooperando con, en lugar de ignorar, la conversación más amplia.
Esto probablemente signifique tomar algunos pasos incómodos, como publicar los pesos del modelo para variantes pequeñas de ULM. Esto necesariamente significa renunciar a cierto control sobre nuestros modelos.
Pero este compromiso es inevitable.
No podemos esperar impulsar la innovación y controlarla”.
El código abierto se va con el fuego de la IA
La semana pasada hice una alusión al mito griego del héroe humano Prometeo robando el fuego de los dioses en el Monte Olimpo, enfrentando el código abierto de Prometeo contra los «dioses olímpicos» de Google y OpenAI:
I tuiteó:
“Mientras Google, Microsoft y Open AI se pelean entre sí y se dan la espalda, ¿el código abierto se está yendo con su fuego?”
La filtración del memorando de Google confirma esa observación, pero también apunta a un posible cambio de estrategia en Google para unirse al movimiento de código abierto y, por lo tanto, cooptarlo y dominarlo de la misma manera que lo hicieron con Chrome y Android.
Lea la nota de Google filtrada aquí:
Google «No tenemos foso, y OpenAI tampoco»
Fuente: Google Memo filtrado admite la derrota de la IA de código abierto