Meta lanza IA generativa para crear música y sonidos • The Register

Meta lanzó el miércoles AudioCraft, un conjunto de tres modelos de inteligencia artificial capaces de crear sonido automáticamente a partir de descripciones de texto.

A medida que los modelos generativos de IA que toman indicaciones escritas y las convierten en imágenes o más texto continúan madurando, los científicos informáticos están estudiando la posibilidad de crear otras formas de medios utilizando el aprendizaje automático.

El audio es difícil para los sistemas de inteligencia artificial, especialmente la música, ya que el software tiene que aprender a producir patrones coherentes durante varios minutos y ser lo suficientemente creativo como para generar algo pegadizo o agradable de escuchar.

"Una pista musical típica de unos pocos minutos muestreada a 44,1 kHz (que es la calidad estándar de las grabaciones musicales) consta de millones de pasos de tiempo", explicó Team Meta. Es decir, un modelo de generación de audio tiene que generar una gran cantidad de datos para crear una pista amigable para los humanos.

"En comparación, los modelos generativos basados en texto como Llama y Llama 2 se alimentan con texto procesado como subpalabras que representan sólo unos pocos miles de pasos de tiempo por muestra".

El gigante de Facebook imagina que la gente utilizará AudioCraft para experimentar creando sonidos generados por computadora sin tener que aprender a tocar ningún instrumento. El conjunto de herramientas se compone de tres modelos: MusicGen, AudioGen y EnCodec.

MusicGen recibió capacitación sobre 20.000 horas de grabaciones, propiedad o bajo licencia de Meta, junto con sus correspondientes descripciones de texto. AudioGen se centra más en generar efectos de sonido que en música y se capacitó con datos públicos. Finalmente, EnCodec se describe como un códec neuronal con pérdida que puede comprimir y descomprimir señales de audio con alta fidelidad.

Meta dijo que era AudioCraft de "código abierto", y lo es hasta cierto punto. El software necesario para crear y entrenar los modelos y ejecutar la inferencia está disponible bajo una licencia MIT de código abierto. El código se puede utilizar en aplicaciones gratuitas (como Freedom y Free Beer) y comerciales, así como en proyectos de investigación.

Dicho esto, los pesos del modelo no son de código abierto. Se comparten bajo una licencia Creative Commons que prohíbe específicamente el uso comercial. Como vimos con Llama 2, siempre que Meta hable sobre temas de código abierto, consulte la letra pequeña.

MusicGen y AudioGen generan sonidos al recibir un mensaje de texto de entrada. Puede escuchar clips cortos creados a partir de las descripciones "silbando con el viento" y "pista de baile pop con melodías pegadizas, percusión tropical y ritmos alegres, perfectos para la playa" en la página de inicio de AudioCraft de Meta, aquí.

Los efectos de sonido cortos son realistas, aunque los que parecen musicales no son muy buenos en nuestra opinión. Suenan como jingles repetitivos y genéricos de mala música o canciones de ascensor en lugar de sencillos de éxito.

Los investigadores de Meta dijeron que AudioGen, descrito en profundidad aquí, se entrenó convirtiendo audio sin procesar en una secuencia de tokens y reconstruyendo la entrada transformándolos nuevamente en audio de alta fidelidad. Un modelo de lenguaje asigna fragmentos del mensaje de texto de entrada a los tokens de audio para aprender la correlación entre palabras y sonidos. MusicGen fue entrenado utilizando un proceso similar con muestras de música en lugar de efectos de sonido.

"En lugar de mantener el trabajo como una caja negra impenetrable, ser abierto sobre cómo desarrollamos estos modelos y garantizar que sean fáciles de usar para las personas, ya sean investigadores o la comunidad musical en su conjunto, ayuda a las personas a comprender lo que estos modelos pueden ofrecer". hacer, entender lo que no pueden hacer y estar capacitados para usarlos", argumentó el Equipo Meta.

"En el futuro, la IA generativa podría ayudar a las personas a mejorar enormemente el tiempo de iteración al permitirles obtener retroalimentación más rápidamente durante las primeras etapas de creación de prototipos y de creación de espacios grises, ya sea un gran desarrollador que construye mundos para el metaverso, un músico (aficionado, profesional o de lo contrario) trabajando en su próxima composición, o el propietario de una pequeña o mediana empresa que busca mejorar sus activos creativos".

Puede obtener el código de AudioCraft aquí y experimentar con MusicGen aquí y probarlo. ®

Envíanos noticias

4040Obtén nuestro40