Imagínate poder crear música o modificar voces y sonidos a partir de un simple comando de texto. NVIDIA acaba de presentar Fugatto, una inteligencia artificial generativa que promete hacer justo eso: transformar el mundo del audio permitiendo combinar, generar y transformar cualquier combinación de música, voces y efectos sonoros. Fugatto no solo genera fragmentos musicales basados en descripciones textuales, sino que también te deja ser un maestro del audio, agregando o eliminando instrumentos, cambiando las emociones en una voz, o creando sonidos nuevos y nunca antes escuchados.
🎵 ✨The world’s most flexible sound machine?
— NVIDIA AI Developer (@NVIDIAAIDev) November 25, 2024
With text and audio inputs, this new #generativeAI model, named Fugatto, can create any combination of music, voices, and sounds.🎹
Read more in our blog by @RichardKerris ➡️ https://t.co/AvTAbjn1iJ #NVIDIAResearch
Note: Some… pic.twitter.com/0IlYboF9JZ
Que es Fugatto
Fugatto es un modelo de inteligencia artificial que hace que trabajar con sonido sea como jugar con bloques de LEGO. Puedes darle indicaciones en texto o archivos de audio y Fugatto se encargará del resto. ¿Quieres transformar una melancólica pieza de piano en algo más alegre? Fugatto lo hace. ¿Quieres eliminar una guitarra de una canción o agregar una trompeta que suene como un gato maullando? Fugatto también puede hacer eso. Gracias a su capacidad de combinar varias instrucciones libremente, este modelo abre un abanico infinito de posibilidades creativas.
Una de las cosas más impresionantes de Fugatto es su habilidad para entender el sonido de una forma muy cercana a cómo lo hacemos los humanos; lo hace de una manera que resulta natural, como si estuviera trabajando con sentimientos y matices. La técnica de ComposableART, que utiliza para combinar instrucciones durante su entrenamiento, permite mezclar indicaciones de forma realmente precisa. Por ejemplo, si quieres un narrador con un acento francés que transmita tristeza, puedes decirle exactamente qué tan marcado quieres el acento y cuánto de esa tristeza quieres que exprese. Este nivel de detalle es realmente impresionante y perfecto para proyectos que requieren mucha precisión emocional.
Y si hablamos de creatividad, Fugatto no se queda atrás. Fue entrenado con una amplia variedad de sonidos, incluyendo los de la BBC, lo que le permite crear combinaciones realmente alocadas, como un saxofón ladrando o un bajo que gime como un lobo. Esto lo hace útil para aquellos profesionales que buscan algo completamente nuevo: productores musicales, agencias de publicidad, creadores de contenido, desarrolladores de videojuegos… Fugatto se convierte en un aliado que permite hacer prototipos, modificar y personalizar audio de manera muy ágil.
¿Por qué es importante?
El potencial de Fugatto es enorme porque está cambiando el modo en que podemos interactuar con el sonido y la música. Para los profesionales de la industria del audio, este tipo de herramienta significa tener una libertad creativa sin precedentes. ¿Cuánto tiempo puede llevar transformar una pieza musical, editar un efecto de sonido, o modificar la emoción de una voz? Fugatto lo hace en un par de clics. Esto reduce costes, tiempo y abre las puertas a la experimentación, a probar cosas nuevas y a no tener miedo de equivocarse. Además, es el primer modelo de IA generativa que muestra propiedades emergentes, lo que significa que las habilidades que desarrolla no fueron planeadas directamente, sino que surgen por la interacción de sus capacidades, como si la propia IA estuviera aprendiendo a ser creativa.
Aunque NVIDIA aún no ha anunciado cómo se podrá acceder a Fugatto de manera pública, lo está desarrollando con un enfoque en la seguridad y la responsabilidad, asegurándose de que esta potente tecnología pueda ser utilizada de forma segura. Fugatto es una muestra de cómo la inteligencia artificial está empujando los límites de lo posible en la música y el sonido, y cómo podría cambiar cómo creamos y disfrutamos del audio en el futuro.