Estabilidad IA ha presentado “Stable Audio”, un modelo de difusión latente diseñado para revolucionar la generación de audio.
Este avance promete ser otro avance para la IA generativa y combina metadatos de texto, duración del audio y condicionamiento del tiempo de inicio para ofrecer un control sin precedentes sobre el contenido y la duración del audio generado, permitiendo incluso la creación de canciones completas.
Los modelos de difusión de audio tradicionalmente se enfrentaban a una limitación significativa a la hora de generar audio de duraciones fijas, lo que a menudo daba lugar a frases musicales abruptas e incompletas. Esto se debió principalmente a que los modelos se entrenaron con fragmentos de audio aleatorios recortados de archivos más largos y luego forzados a longitudes predeterminadas.
Stable Audio aborda eficazmente este desafío histórico, permitiendo la generación de audio con longitudes específicas, hasta el tamaño de la ventana de entrenamiento.
Una de las características más destacadas de Stable Audio es el uso de una representación latente de audio muy reducida, lo que da como resultado tiempos de inferencia enormemente acelerados en comparación con el audio sin formato. A través de técnicas de muestreo de difusión de vanguardia, el modelo insignia de Stable Audio puede generar 95 segundos de audio estéreo a una frecuencia de muestreo de 44,1 kHz en menos de un segundo utilizando la potencia de una GPU NVIDIA A100.
Una base sólida
La arquitectura central de Stable Audio comprende un codificador automático variacional (VAE), un codificador de texto y un modelo de difusión condicionada basado en U-Net.
El VAE desempeña un papel fundamental al comprimir el audio estéreo en una codificación latente con pérdidas y resistente al ruido que acelera significativamente los procesos de generación y entrenamiento. Este enfoque, basado en la Descripción del códec de audio Las arquitecturas de codificador y decodificador facilitan la codificación y decodificación de audio de longitud arbitraria al tiempo que garantiza una salida de alta fidelidad.
Para aprovechar la influencia de las indicaciones de texto, Stability AI utiliza un codificador de texto derivado de un APLAUDIR modelo especialmente entrenado en su conjunto de datos. Esto permite que el modelo imbuya las características del texto con información sobre las relaciones entre palabras y sonidos. Estas características del texto, extraídas de la penúltima capa del codificador de texto CLAP, se integran en la U-Net de difusión a través de capas de atención cruzada.
Durante el entrenamiento, el modelo aprende a incorporar dos propiedades clave de los fragmentos de audio: el segundo inicial (“segundos_inicio”) y la duración total del archivo de audio original (“segundos_total”). Estas propiedades se transforman en incrustaciones aprendidas discretas por segundo, que luego se concatenan con los tokens de mensajes de texto. Este condicionamiento único permite a los usuarios especificar la duración deseada del audio generado durante la inferencia.
El modelo de difusión en el corazón de Stable Audio cuenta con la asombrosa cantidad de 907 millones de parámetros y aprovecha una combinación sofisticada de capas residuales, capas de atención propia y capas de atención cruzada para eliminar el ruido de la entrada mientras se consideran las incrustaciones de texto y sincronización. Para mejorar la eficiencia de la memoria y la escalabilidad para secuencias de mayor longitud, el modelo incorpora implementaciones de atención eficientes en la memoria.
Para entrenar el modelo insignia de Stable Audio, Stability AI seleccionó un extenso conjunto de datos que comprende más de 800.000 archivos de audio que abarcan música, efectos de sonido y bases de un solo instrumento. Este rico conjunto de datos, proporcionado en asociación con AudioSparx – un destacado proveedor de música de archivo – asciende a la asombrosa cifra de 19.500 horas de audio.
Stable Audio representa la vanguardia de la investigación de generación de audio, que surge del laboratorio de investigación de audio generativo de Stability AI. Harmonai. El equipo sigue dedicado a mejorar las arquitecturas de modelos, perfeccionar los conjuntos de datos y mejorar los procedimientos de capacitación. Su objetivo abarca elevar la calidad de la salida, ajustar la controlabilidad, optimizar la velocidad de inferencia y ampliar el rango de longitudes de salida alcanzables.
Stability AI ha insinuado los próximos lanzamientos de Harmonai, provocando la posibilidad de modelos de código abierto basados en Stable Audio y código de entrenamiento accesible.
Este último anuncio innovador sigue a una serie de historias notables sobre la estabilidad. A principios de esta semana, Stability se unió a otras siete destacadas empresas de IA que firmaron el compromiso voluntario de seguridad de la IA de la Casa Blanca como parte de su segunda ronda.
Puedes probar Stable Audio por ti mismo aquí.
(Foto por Eric Nopanen en desempaquetar)
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con Semana de la Transformación Digital.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Stability AI presenta el modelo ‘Stable Audio’ para generación de audio controlable