L'intelligence artificielle s'invite au banquet de la musique
La musique entretient de longue date une relation particulière avec l’IA, qui le lui rend bien, et lui promet une véritable révolution multidimensionnelle, laquelle va toucher chacun de ses organes.
Selon Geoffrey Hinton, chercheur canadien spécialiste des réseaux de neurones artificiels, interrogé il y a quelques semaines par Venture Beat à l’occasion du dixième anniversaire de la révolution du deep-learning (apprentissage machine), les progrès de l'IA ne vont cesser de s'accélérer1. "[Ceux] réalisés au cours des quatre ou cinq dernières années ont été étonnants", confie Yann Lecun, directeur scientifique en charge du développement de l’IA Galactica chez Meta. Pour le professeur de l’Université de Stanford Fei-Fei Li, créateur en 2006 de ImageNet, une base de données de millions d’images annotées utilisée pour la recherche en vision par ordinateur, nous assistons à une “révolution phénoménale” dont il n’aurait “jamais pu rêver”.
C’est le lancement par OpenAI, le 30 novembre dernier, d’une version de démonstration de son agent conversationnel ChatGPT, que tout un chacun peut interroger sur une multitude de sujets, qui a mis le feu aux poudres et propulsé l’intelligence artificielle sur le devant de la scène en cette fin d’année. Nombreux sont ceux qui se sont essayés à dialoguer avec lui2. Le fait, pour tout un chacun, de pouvoir “chatter” avec une IA est une première, et constitue un saut paradigmique vertigineux, qui ne va pas sans susciter un certain émoi3. Disponible en libre accès, ChatGPT a déjà passé le million d’utilisateurs, selon OpenAI. Cet entreprise californienne est également à l’origine de Dall·E 2, un logiciel capable de créer une image à partir d’un texte, à l’instar de Stable Diffusion4.
De la conversation à la génération de musique
Contrairement aux IA d’OpenAI, qui porte mal son nom de ce point de vue, Stable Diffusion est un générateur d'images “open source”5 entrainé avec des paires image-texte provenant d'un large balayage d'Internet, dont le développement a été financé par Stability AI, un start-up londonienne qui soutient le développement de systèmes d'intelligence artificielle open source6. Pour qu’ils puissent entraîner leurs IA, Stability AI met à disposition des porteurs de projets qu’elle soutient et finance un cluster de plus de 4 000 processeurs graphique GPU Nvidia A100 fonctionnant sur les infrastructures de cloud AWS d'Amazon.
L'IA a également de nombreuses applications dans la vidéo, rappelle l’expert du secteur et ancien journaliste Laurent Clause sur son site Videonline.com7. “En attendant de pouvoir produire une vidéo de bout en bout sur une simple requête texte détaillée (comme l'envisage Meta), l'IA prend différentes formes en vidéo, à la portée du plus grand nombre”, explique t-il : comme le recours à des avatars, à des voix de synthèse naturelles, au sous-titrage et à la traduction automatiques, et jusqu’à la génération de plans de coupe à partir d’un texte. Les applications sont nombreuses également dans la musique, qui entretient de longue date une relation particulière avec l’IA8.
Parmi les projets que finance la start-up londonienne Stability AI, qui vient de boucler une levée de fonds de 89 millions de livres sterling (101,7 M€), figure Dance Diffusion, qui est porté par l'organisation non lucrative Harmonai9, dont le slogan est : “de l’IA pour les musiciens par les musiciens”. Dance Diffusion est le premier d'une suite d'outils de génération audio destinés aux producteurs et aux musiciens qui s'appuie sur le modèle d'IA de Stability AI10 et que s’apprête à sortir Harmonai. Entrainé avec des centaines de chansons, il permet de générer des musiques originales à partir d'un ou plusieurs échantillons.
De l’IA à tous les étages dans la musique
Générer de la musique adaptative dans toutes sortes de contexte, c’est ce que permet de faire l’intelligence artificielle développée par la start-up britannique LifeScore, dans laquelle a investi la maison de disques Warner Music en mars 202211. Elle crée des bandes son originales en temps réel qui s'adaptent à l'environnement et aux paramètres définis par l’auditeur, à partir de fragments musicaux composés à cette fin par des artistes de renommée internationale. "La matière première fournie aux algorithmes de LifeScore est constituée d’enregistrements réalisés par les meilleurs musiciens au monde dans les meilleurs studios d'enregistrement du monde", confiait début 2019 Tom Gruber, un ancien de Siri qui compte parmi ses fondateurs, lors d’une présentation faite aux studios Abbey Road de Londres où la start-up a été incubée.
En matière de musique, l’iA est susceptible d’intervenir à tous les étages. L'outil intelligent TuneBlades développé par Matchtune, qui se montre capable de redimensionner, remixer et ajuster automatiquement n'importe quelle chanson en fonction de la durée souhaitée tout en préservant les bases mélodiques et les voix, édite automatiquement les bandes son musicales des médias. Son IA et ses algorithmes suppriment la charge de travail traditionnellement associée à cette lourde tâche. On retrouve également l’iA dans les outils de création musicale collaboratifs de la startup singapourienne Bandlab Technologies12, ou dans ceux de la start-up australienne Splash13.
Portée récemment sur ordinateur, l'application mobile de BandLab permet d'accéder à un Mix Editor facilitant la création musicale collaborative dans le cloud à partir d'une banque de boucles et d'échantillons libres de droit, d'un générateur d'idées piloté par intelligence artificielle, d'instruments virtuels, d'effets premium et d'un outil de mastering en ligne. Splah a développé de son côté un système de composition musicale qui s'appuie sur l'intelligence artificielle et l'apprentissage machine pour permettre aux utilisateurs de plateformes de jeux en réseau comme Roblox de créer leur propre musique dans le métavers et de se produire sur des scènes virtuelles.
Hello World
Lors des Rencontres de l’innovation dans la musique organisées par le Centre national de la musique à Caen au mois de mai dernier, l’artiste français Whim Therapy (aka Jérémy Bénichou), faisaient part de son expérience de composition d'un EP 5 titres en collaboration avec des outils de création musicale s’appuyant sur l’IA développés par le laboratoire Sony Music CSL à Paris14. "Le questionnement que j'ai avec ces outils, que j'ai commencé à utiliser avec un bagage de producteur assez solide, c'est de savoir ce qui va se passer lorsque quelqu'un qui débarque complètement, et qui n'a pas encore été pollué par les standards de la musique, va se retrouver avec ces outils dans les mains. Je pense que le résultat peut être super intéressant."
Début mars 2022, l’artiste français Skygge (aka Benoît Carré) sortait un deuxième album, Melancholia, composé en collaboration avec les outils d’IA du Creator Technology Research Lab de Spotify, qui est dirigé par le chercheur français François Pachet. Benoît Carré s’est une première fois servi de l’IA en 2012 pour composer la chanson Daddy's car à partir d'un corpus des Beatles, avant de concevoir un autre titre, Ballad of The Shadow, à partir de 450 partitions de standards de jazz américain. En 2018, l’artiste sortait un premier album composé avec l’IA, Hello World, sur lequel étaient invités une quinzaine d’artistes comme Stromae, Médéric Collignon ou Camille Bertault.
L’intelligence artificielle ne s’invite pas que sur le terrain de la composition. Créée en 2018 par des data scientists diplômés de la chaire de Recherche d'informations musicales de l'université de Berlin, la startup allemande Cyanite offre un service d'analyse musicale à base d'intelligence artificielle capable d'extraire toutes sortes de métadonnées du signal audio des chansons, afin de les baliser automatiquement avec des tags et de faciliter la navigation au sein de vastes catalogues de musique, à des utilisateurs professionnels comme les DJ ou les superviseurs musicaux15.
De multiples applications
Basée à San Francisco, la start-up Authentic Artists a développé une plateforme qui s'appuie sur l'apprentissage machine, un moteur de jeu et des technologies de blockchain pour crééer des artistes virtuels à destination du métavers, des jeux vidéo, et de l'écosystème du streaming. Ses équipes développent des êtres virtuels capables de réaliser des sets musicaux interactifs en direct et en ligne. La compagnie a d'ores et déjà développé une douzaine de ces DJ virtuels, dont les performances sont générées en temps réel par une intelligence artificielle s'appuyant sur un catalogue de 130 000 fichiers MIDI16.
Début mai 2022, la plateforme de streaming et d’hébergement berlinoise Soundcloud annonçait son acquisition de la start-up singapourienne Musiio, créée en 2018 par Hazel Savage, une spécialiste du marketing en ligne passée par HMV, Shazam, Universal Music et Pandora, et par Aron Petterson, un “data scientist” suédois. Musiio a développé une solution de curation musicale basée sur l’intelligence artificielle, qui s’appuie sur l’analyse des caractéristiques audio des titres de musique qui lui sont soumis pour établir des liens de similarité entre eux17.
L’intelligence artificielle s’invite également sur le terrain de la gestion des droits et des services financiers décentralisés offerts aux labels et aux artistes, comme chez The Music Fund, une start-up californienne fondée en 2017 qui permet aux artistes indépendants d’obtenir des avances sur leurs royalties en provenance du streaming, qui a été racheté par la plateforme new-yorkaise de gestion financière des droits de la musique HIFI18.
Les fondateurs de The Music Fund, John Funge et Thomas Jerde, ont développé un modèle de valorisation automatique de la musique qui s’appuie sur l’intelligence artificielle et les big datas pour valider des paiements aux artistes sous 24 heures pouvant atteindre jusqu’à 50 000 dollars, en contrepartie de la cession, sur une période donnée, d’une fraction de leurs droits à rémunération. C’est également sur l’intelligence artificielle que se repose la start-up californienne BeatBread, ainsi que sur les big datas collectées et des modèles prédictifs avancés, pour accorder des avances sur royalties aux artistes19.
Des usages problématiques
La start-up allemande Musicube, créée en 2019 par les musicologues et « data scientists » David Hoga et Agnes Chung, qui s’est spécialisée dans l'exploitation des métadonnées de la musique et a été racheté en juillet 2022 par place de marché électronique Songtradr20, qui s'adresse aux utilisateurs de musique à l’image, s'appuie sur l'intelligence artificielle et sur une base de données de plus de 50 millions de titres de chansons tagués avec quelques de 500 mots-clés pour permettre à des utilisateurs de musique professionnels d'effectuer des recherches sémantiques en fonction de critères comme l’humeur, le genre, les instruments, les caractéristiques vocales, le tempo ou le contenu des paroles.
Plus problématiques peuvent être des iniatives comme celle d'Audioshake, dont l’IA opère le "reverse engineering" de n'importe quelle musique enregistrée pour en extraire les stems ou lignes d'instrumentaux à des fins de nouvelles exploitations21. Audioshake peut extraire des instrumentaux en quelques secondes, explique la compagnie sur son site. "Alors qu'il existe déjà de nombreuses utilisations des stems aujourd'hui, nous nous dirigeons vers un monde dans lequel ils deviendront encore plus importants, sous-tendant la plupart de nos expériences musicales futures”, considère Jessica Powell, PDG et cofondatrice d'Audioshake, qui a travaillé chez Google et à la CISAC.
“Nous sommes […] très préoccupés par les projets visant à permettre à des tiers d'utiliser les oeuvres créatives, y compris la musique, à des fins d'exploration de données, sans avoir à requérir l’autorisation des créateurs et des titulaires de droits”, écrivait il y a peu Jamie Njoku-Goodwin, PDG de UK Music, un organisme qui représente les acteurs de la filière musicale au Royaume Uni, dans une lettre ouverte à la ministre britannique de la Culture. Le gouvernement anglais étudie en effet l’idée d’introduire une exception pour copie privée en matière de data mining. “La mesure [d’exception] saperait les protections existantes du droit d'auteur et conduirait à un transfert de valeur des secteurs créatifs britanniques […] vers les grandes entreprises technologiques internationales”, dénonçait-il.
Une révolution
C’est un peu se qui se passe en Chine, où la plateforme de streaming musical Tencent Music, numéro un du marché avec plus de 600 millions d’utilisateurs, mise sur la production de contenus originaux pour court-circuiter l’industrie musicale. La plateforme chinoise a investi à cette fin dans la mise à disposition des artistes indépendants de toute une panoplie d’outils et de services de création, de production, de marketing et de distribution de leur musique. Ils sont déjà 300 000 à les avoir adoptés, qui viennent alimenter son catalogue en contenus exclusifs22.
Tencent Music a en outre annoncé avoir créé et diffusé plus de 1 000 titres contenant des voix créées par une IA qui imite la voix humaine. L'un de ces titres a déjà dépassé les 100 millions de streams sur la plateforme. Selon la compagnie, la technologie de synthèse vocale utilisée permet de "reproduire fidèlement” la voix de chanteurs ou chanteuses disparues pour produire des chansons originales dans n'importe quels style ou langue. La révolution des IA musicales ne fait que commencer.
10 years later, deep learning ‘revolution’ rages on, say AI pioneers Hinton, LeCun and Li, VentureBeat, 14 septembre 2022
Retrouvez les premiers épisodes des conversations que j'ai entrepris de mener avec l'intelligence artificielle ChatGPT d'Open AI sur toutes sortes de sujets :
Conversations avec une AI #1
Peut-on tirer les vers du nez à une intelligence artificielle ? C'est ce que j'ai essayé de faire avec OpenAI. Je vous livre le verbatim de notre conversation qui est assez bluffant.
Conversations avec une IA #2
Deuxième verbatim de mes conversations avec une intelligence artificielle, que j'ai décidé de poursuivre sur différents sujets, à commencer par cette discussion improvisée sur la physique quantique.
Conversations avec une IA #3
Premiers pas feutrés dans le jardin de la philosophie... où il est question de moyen-âge, d'hermétisme, de Platon, de Descartes, de Newton, et de l'invention du zéro.
Conversations avec une IA #4
C'est sur le terrain des mathématiques que cette 4ième conversation avec une IA s'est déroulée... où il est question de Pi, du nombre d'or, du théorème de Fermat et des nombres premiers.
Conversations avec une IA #5
Où il est question d'âme et d'esprit, de soi et d'égo, des "annales akashiques", de Rudolf Steiner, de physique de la conscience, de Carl Jung et de René Guénon, et pour finir du Yi-King.
Conversations avec une IA #6
Longue discussion sur la nature de la monnaie... où il est notamment question de son histoire ; des travaux de Polanyi, de Lietaer et de Gesell ; du Wir, du Time dollar et de "quantitative easing".
Conversations avec une IA #7
Première conversarion avec l'IA d'OpenAI sur la cryptommonaie Bitcoin, son protocole de preuve de travail, la concentration de ses actifs entre une minorité de mains, sa consommation énergétique...
ChatGPT crée une onde de choc dans le monde de l’enseignement, Le Devoir, 14 décembre 2022
Image générée par Stable Diffusion (https://huggingface.co/spaces/stabilityai/stable-diffusion) à partir de la phrase "A small town in the south of France near a river" (“une petite ville du sud de la France située près d'une rivière”)
Un logiciel “open source” est conçu pour être accessible gratuitement au public : n'importe qui peut voir, modifier et distribuer son code. Ce type de logiciel est en général développé de manière collaborative et décentralisée par toute une communauté de développeurs bénévoles.
Stability AI, the startup behind Stable Diffusion, raises $101M, TechCrunch, 17 octobre 2018
En vidéo aussi, l’invasion IA a commencé, Videonline.com, 16 décembre 2022
Dossier Intelligence Artificielle : la musique aux portes de la singularité, Don’t Believe the Hype, 19 janvier 2016
Les IA de Stability utilisent ce qu'on appelle un “modèle de diffusion”, qui génère de nouvelles données (par exemple, des chansons) en apprenant à détruire et à récupérer de nombreux échantillons de données existants. Au fur et à mesure qu'il est alimenté en échantillons - par exemple, toute la discographie des Smashing Pumpkins - le modèle devient meilleur pour récupérer toutes les données qu'il avait précédemment détruites afin de créer de nouvelles œuvres.
Warner Music investit dans l'IA musicale de la start-up britannique LifeScore, @music_zone, 9 mars 2022
Bandlab Technologies valorisée plus de 300 millions de dollars, @music_zone, 3 mars 2022
Splash gamifie la création musicale dans le métavers, @music_zone, 21 déembre 2021
La musique à l'heure des algorithmes intelligents, conférence organisée à Caen par le CNM, vidéo postée le 3 juin 2022
Cyanite met l'intelligence artificielle au service du balisage des catalogues, @music_zone, 7 octobre 2022
Authentic Artists conçoit des artistes virtuels à destination du métavers, @music_zone, 22 juillet 2022
Soundcloud va intégrer l'IA de Musiio à sa plateforme de streaming, @music_zone, 3 juin 2022
The Music Fund et son IA rachetés par la plateforme de gestion financière HIFI, @music_zone, 23 décembre 2021
BeatBread accorde des avances sur royalties aux artistes en quelques clics de souris, @music_zone, 9 décembre 2022
Songtradr rachète les réseaux neuronaux de Musicube, @music_zone, 23 juillet 2022
Audioshake extrait tous les instrumentaux de n'importe quelle musique, @music_zone, 21 décembre 2021
Over 1,000 songs with human-mimicking AI vocals have been released by Tencent Music in China, Music Business Worldwide, novembre 2022