M√°s

    Stability AI presenta el modelo ‘Stable Audio’ para generaci√≥n de audio controlable

    - Advertisement -

    Estabilidad IA ha presentado ‚ÄúStable Audio‚ÄĚ, un modelo de difusi√≥n latente dise√Īado para revolucionar la generaci√≥n de audio.

    Este avance promete ser otro avance para la IA generativa y combina metadatos de texto, duración del audio y condicionamiento del tiempo de inicio para ofrecer un control sin precedentes sobre el contenido y la duración del audio generado, permitiendo incluso la creación de canciones completas.

    Los modelos de difusión de audio tradicionalmente se enfrentaban a una limitación significativa a la hora de generar audio de duraciones fijas, lo que a menudo daba lugar a frases musicales abruptas e incompletas. Esto se debió principalmente a que los modelos se entrenaron con fragmentos de audio aleatorios recortados de archivos más largos y luego forzados a longitudes predeterminadas.

    Stable Audio aborda eficazmente este desaf√≠o hist√≥rico, permitiendo la generaci√≥n de audio con longitudes espec√≠ficas, hasta el tama√Īo de la ventana de entrenamiento.

    Una de las características más destacadas de Stable Audio es el uso de una representación latente de audio muy reducida, lo que da como resultado tiempos de inferencia enormemente acelerados en comparación con el audio sin formato. A través de técnicas de muestreo de difusión de vanguardia, el modelo insignia de Stable Audio puede generar 95 segundos de audio estéreo a una frecuencia de muestreo de 44,1 kHz en menos de un segundo utilizando la potencia de una GPU NVIDIA A100.

    Una base sólida

    La arquitectura central de Stable Audio comprende un codificador automático variacional (VAE), un codificador de texto y un modelo de difusión condicionada basado en U-Net.

    El VAE desempe√Īa un papel fundamental al comprimir el audio est√©reo en una codificaci√≥n latente con p√©rdidas y resistente al ruido que acelera significativamente los procesos de generaci√≥n y entrenamiento. Este enfoque, basado en la Descripci√≥n del c√≥dec de audio Las arquitecturas de codificador y decodificador facilitan la codificaci√≥n y decodificaci√≥n de audio de longitud arbitraria al tiempo que garantiza una salida de alta fidelidad.

    Para aprovechar la influencia de las indicaciones de texto, Stability AI utiliza un codificador de texto derivado de un APLAUDIR modelo especialmente entrenado en su conjunto de datos. Esto permite que el modelo imbuya las caracter√≠sticas del texto con informaci√≥n sobre las relaciones entre palabras y sonidos. Estas caracter√≠sticas del texto, extra√≠das de la pen√ļltima capa del codificador de texto CLAP, se integran en la U-Net de difusi√≥n a trav√©s de capas de atenci√≥n cruzada.

    Durante el entrenamiento, el modelo aprende a incorporar dos propiedades clave de los fragmentos de audio: el segundo inicial (‚Äúsegundos_inicio‚ÄĚ) y la duraci√≥n total del archivo de audio original (‚Äúsegundos_total‚ÄĚ). Estas propiedades se transforman en incrustaciones aprendidas discretas por segundo, que luego se concatenan con los tokens de mensajes de texto. Este condicionamiento √ļnico permite a los usuarios especificar la duraci√≥n deseada del audio generado durante la inferencia.

    ‚ĚĮ Tambi√©n te interesa:Google Gemini: Lo que sabemos hasta ahoraGoogle Gemini: Lo que sabemos hasta ahora

    El modelo de difusión en el corazón de Stable Audio cuenta con la asombrosa cantidad de 907 millones de parámetros y aprovecha una combinación sofisticada de capas residuales, capas de atención propia y capas de atención cruzada para eliminar el ruido de la entrada mientras se consideran las incrustaciones de texto y sincronización. Para mejorar la eficiencia de la memoria y la escalabilidad para secuencias de mayor longitud, el modelo incorpora implementaciones de atención eficientes en la memoria.

    Para entrenar el modelo insignia de Stable Audio, Stability AI seleccion√≥ un extenso conjunto de datos que comprende m√°s de 800.000 archivos de audio que abarcan m√ļsica, efectos de sonido y bases de un solo instrumento. Este rico conjunto de datos, proporcionado en asociaci√≥n con AudioSparx ‚Äď un destacado proveedor de m√ļsica de archivo ‚Äď asciende a la asombrosa cifra de 19.500 horas de audio.

    Stable Audio representa la vanguardia de la investigación de generación de audio, que surge del laboratorio de investigación de audio generativo de Stability AI. Harmonai. El equipo sigue dedicado a mejorar las arquitecturas de modelos, perfeccionar los conjuntos de datos y mejorar los procedimientos de capacitación. Su objetivo abarca elevar la calidad de la salida, ajustar la controlabilidad, optimizar la velocidad de inferencia y ampliar el rango de longitudes de salida alcanzables.

    Stability AI ha insinuado los pr√≥ximos lanzamientos de Harmonai, provocando la posibilidad de modelos de c√≥digo abierto basados ‚Äč‚Äčen Stable Audio y c√≥digo de entrenamiento accesible.

    Este √ļltimo anuncio innovador sigue a una serie de historias notables sobre la estabilidad. A principios de esta semana, Stability se uni√≥ a otras siete destacadas empresas de IA que firmaron el compromiso voluntario de seguridad de la IA de la Casa Blanca como parte de su segunda ronda.

    Puedes probar Stable Audio por ti mismo aquí.

    (Foto por Eric Nopanen en desempaquetar)

    ¬ŅQuiere aprender m√°s sobre IA y big data de la mano de los l√≠deres de la industria? Verificar Exposici√≥n de IA y Big Data que tendr√° lugar en Amsterdam, California y Londres. El evento integral comparte ubicaci√≥n con Semana de la Transformaci√≥n Digital.

    ‚ĚĮ Tambi√©n te interesa:¬ŅSe est√° matando Europa financieramente con la Ley de IA?¬ŅSe est√° matando Europa financieramente con la Ley de IA?

    Explore otros pr√≥ximos eventos y seminarios web de tecnolog√≠a empresarial impulsados ‚Äč‚Äčpor TechForge aqu√≠.

    • ryan daws

      Ryan es editor senior en TechForge Media con m√°s de una d√©cada de experiencia cubriendo la √ļltima tecnolog√≠a y entrevistando a figuras l√≠deres de la industria. A menudo se le puede ver en conferencias tecnol√≥gicas con un caf√© fuerte en una mano y una computadora port√°til en la otra. Si es geek, probablemente le guste. Encu√©ntrelo en Twitter (@Gadget_Ry) o Mastodon (@[email protected])

      Ver todas las publicaciones

    Etiquetas: ai, inteligencia artificial, generación de audio, modelo de aplauso, ai generativa, harmonai, difusión latente, modelo, estabilidad ai, audio estable

    Fuente: Stability AI presenta el modelo ‘Stable Audio’ para generaci√≥n de audio controlable

    ‚ĚĮ Tambi√©n te interesa:CMA establece principios para el desarrollo responsable de la IACMA establece principios para el desarrollo responsable de la IA

    Populares

    Más de esta categoría

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aquí

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.