Riffusion détourne le modèle de Stability pour générer de la musique
En entraînant le modèle text-to-image de Stability à générer des spectrogrammes de pièces musicales, qui sont ensuite convertis en signal audio, l'IA de Riffusion lui permet de générer de la musique.
Pièce de blues rock chantée de 12 secondes générée par l’IA de Riffusion à partir de deux vers de Rimbaud traduits en anglais.
Fondée en 2022 par le musicien et dévelopeur Seth Forsgren et par le roboticien Hayk Martiros, la start-up Riffusion, basée à San Francisco, a développé un outil d'intelligence artificielle permettant de générer des chansons à partir de prompts textuels. L'IA musicale générative de Riffusion s'appuie sur le modèle d'apprentissage profond (ou deep-learning) Stable Diffusion de la compagnie Stability, conçu à l’origine pour générer des images photoréalistes de haute qualité à partir de descriptions textuelles.
Forsgren et Martiros ont entraîné le modèle de Stability avec des spectrogrammes de pièces musicales - ou représentations visuelles du signal audio et de l’amplitude de différentes fréquences au fil du temps - qu'ils ont étiquetés en amont, avec des termes comme "guitare blues", "piano jazz", “basse funky”, etc, afin qu’il soit capable de les reproduire. Les spectogrammes combinés par Stable Diffusion en retour d’un prompt (comprenant les paroles de la chanson et la description du style de musique souhaité) sont ensuite convertis en signal audio par Riffusion, ce qui permet à un modèle originellement text-to-image de générer de la musique.
La version actuelle de Riffusion, accessible sur le Web, permet de générer des pièces de musique chantées de 12 secondes. “Les utilisateurs décrivent les qualités de la musique [qu'ils souhaitent obtenir] en langage naturel ou même en enregistrant leur propre voix, afin d'inciter le modèle à générer des résultats uniques”, explique Seth Forsgren. “Nous pensons que ce produit permettra aux producteurs de musique et aux ingénieurs du son d'explorer de nouvelles idées et de trouver l'inspiration d'une manière totalement nouvelle”.
L’IA de Riffusion, qui n’a pas été entraînée à identifier les noms d'artistes célèbres dans les prompts, n’est pas conçue pour produire des deepfakes, précise t-il. Elle se veut plus ludique et facile d'utilisation que des outils similaires comme MusicLM de Google, MusicGen de Facebook ou Stable Audio de Stability. “Riffusion ne produit que des séquences musicales courtes pour le moment. Son potentiel de compositions plus longues est en cours d’exploration”, indique par ailleurs la compagnie sur son site.
La start-up a bouclé une première levée de fonds d'amorçage de 4 millions de dollars (3,7 M€) au quatrième trimestre 2023, auprès du fonds de capital risque chinois Sky9 Capital et de son homologue new-yorkais Greycroft.
Lire également :