L'IA musicale Suno valorisée 500 millions de dollars
Dix millions de personnes ont déjà généré de la musique avec Suno, indique son PDG Mikey Shulman, dans un communiqué annonçant le bouclage d’une première levée de fonds de 125 millions de dollars.
Après avoir bouclé un doctorat de physique à l’Université de Harvard, et co-signé plusieurs articles scientifiques sur l’informatique quantique dans les années 2010, Mikey Shulman1 intègre les équipes de kensho, une start-up d’intelligence artificielle américaine basée à Cambridge, dans le Massachusetts, qui développe des outils d’analyse financière à base de traitement du langage, dont il prend en charge les opérations de machine learning (apprentissage profond).
C’est dans ce contexte qu’il participe, dès 2019, à l’élaboration d’un outil speech-to-text permettant d’automatiser la retranscription textuelle des conférences téléphoniques données par les entreprises cotées en bourse lors de la présentation de leurs résultats financiers. L’expérience va conduire ce musicien semi-professionnel, qui a étudié le piano, appris à jouer de plusieurs instruments de musique en autodidacte, et écumé les bars concerts de sa région avec plusieurs formations musicales, à se lancer dans le développement d’une IA générative de musique.
“Nous avions lancé un projet open source appelé Bark2, un modèle de synthèse vocale qui fut très bien accueilli par la communauté, avec beaucoup d'étoiles sur Github. Nous avons demandé aux gens ce qui les intéressait le plus [en matière d’IA appliquée à l’audio], et ils nous ont majoritairemet répondu que c’était la musique. […] Quand toute la communauté vous appelle à faire de la musique, c'est un signal très fort ”, confait-il récemment sur Youtube à Michael Mignano3, cofondateur de la plateforme de podcasting Anchor rachetée par Spotify, dont il fut le responsable “talk audio”, et partenaire associé du fonds de capital risque californien Lightspeed Venture.
Courant 2022, Mikey Shulman est rejoint par trois acolytes de chez Kensho, Georg Kucsko, Martin Camacho et Keenan Freyberg, comme lui tous musiciens, pour se lancer dans le développement d’une IA musicale générative baptisée Suno (terme qui signfie “écouter” en hindi). L’IA de synthèse vocale Bart, modèle texte-audio universel de type Tranformer qu’ils ont déjà développé, et qui excelle dans la génération de discours multilingues très réalistes, de bruits de fond ou de simples effets sonores, va leur servir de première brique.
“Nous voyions des gens essayer de faire de la musique avec Bart sur notre serveur Discord. […] C’était des petits bouts de musique parfois peu convaincants, qui pouvaient être chantés, ou des musiques de fond. Le résultat était aléatoire, car le modèle était entraîné à faire tout à fait autre chose”, raconte Mikey Shulman. Bark réunissait déjà, cependant, tout un ensemble de modèles de langage de type Transformer capables de convertir du texte en speechs audio de qualité et même à l‘occasion, de manière détournée, en musique agréable à écouter.
En s’appuyant sur les fantastiques progrès réalisés en l’espace de quelques mois par la communauté open source en matière de traitement de l’audio par l’IA, l’équipe parvenait à délivrer un premier modèle de génération de paroles et de sons à partir d’un prompt textuel dès avril 2023. Au mois de décembre suivant, Microsoft intègrait l’application à son chatbot Copilot sous forme de plugin. Et fin mars 2024, Suno, qui utilise le modèle de langage ChatGPT d'OpenAI pour générer des paroles, publiait une version v3 accessible à tous et permettant de générer des chansons de plus de deux minutes.
Le modèle permet de fournir ses propres paroles, de préciser où insérer un couplet, un break, un pont instrumental ou un refrain, voire un solo de flûte, de piano ou de guitare, et de décrire précisemment l’orchestration souhaitée. “Nous n'en sommes qu'au tout début, mais 10 millions de personnes ont déjà généré de la musique avec Suno”, indique Mikey Shulman dans un communiqué du 21 mai dernier annonçant le bouclage d’une première levée de fonds de 125 millions de dollars4, qui selon certaines sources valoriserait la compagnie à hauteur de 500 millions de dollars5.
C’est Lightspeed Venture Partners qui a conduit le tour de table, auquel ont participé les sociétés de capital risque Matrix et Founder Collective ; l’entrepreneur et investisseur américain Daniel Gross - co-fondateur du moteur de recherche Cue racheté en 2013 par Apple, dont il a un temps supervisé les recherches en IA ; et Nat Friedman - un ancien directeur technique chez Novell et vice-président des services aux développeurs chez Microsoft, qui fut également PDG de la plateforme de projets open source GitHub.
Ce premier tour de table d’un montant exceptionnel survient alors que l'utilisation d'enregistrements musicaux protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle comme Suno, sans consentement explicite des artistes et des ayants droit en amont, soulève un débat houleux. Le constat a déjà été fait que certaines musiques générées par Suno, qui n’a toujours pas fait toute la transparence sur les données d'entraînement utilisées par son modèle, présentent des similitudes frappantes avec des chansons populaires, pouvant éventuellement caractériser des violations de leur copyright.
Interrogé par Michael Mignano sur le sujet, Mikey Shulman se projette dans un futur où le climat sera moins incertain en matière d’octroi de licences, et où Suno pourra autoriser ses utilisateurs à générer des chansons dans le style de Taylor Swift : “Je ne sais pas combien cela coûterait et je ne sais pas combien irait à Taylor Swift. Nous sommes déjà en capacité de le permettre, mais nous ne pouvons pas le faire car nous ne savons pas combien ni comment payer Taylor Swift pour cela”.
Cité par Rolling Stone6, Antonio Rodriguez, partenaire de la société de capital-risque Matrix, primo-investisseur dans la compagnie, dit s’attendre à ce que Suno fasse l’objet de poursuites judiciaires de la part des labels et des éditeurs de musique. “C’est le risque que nous avons pris en investissant dans la société”, indique t-il. Mais d’ajouter dans la foulée : “ Si cette entreprise avait passé des accords avec des labels en amont, nous n'aurions probablement pas investi dans son capital. Je pense qu'ils avaient besoin de développer ce type de produit sans contraintes”.
Lire également :
Mikey Shulman: Suno and the Sound of AI Music, Lightspeed Venture Partners, Youtube, 7 mars 2024
Suno has raised $125 million to build a future where anyone can make music, communiqué de presse, 21 mai 2024
Music Generator Suno Raises Capital at $500 Million Valuation, The Information, 21 mai 2024
As AI Race Heats Up, A ChatGPT For Music Just Raised $125 Million, Rolling Stone, 21 mai 2024