Les big datas musicales, une question de souveraineté culturelle qui n'est pas posée
La consommation de musique génère des montagnes de données sur nos goûts, pratiques et comportements dont nous sommes producteurs, sur lesquelles nous avons abandonné toute souveraineté.
Chaque jour, des dizaines de millions de personnes dans le monde utilisent Spotify pour écouter de la musique. Chacune de leurs interactions avec son interface (pour écouter un titre ou un podcast, effectuer une recherche, consulter la biographie d’un artiste, créer une playlist, passer au titre suivant, etc.), ou chacune de leurs réactions (feedback) aux suggestions de ses algorithmes de recommandation (via ses tops et ses playlists éditoriales, ses services de radio interactive, sa base de liens de similarité entre artistes, etc.), alimentent la machine à big data de Spotify1.
100 milliards de points de données au quotidien
Plus de 100 milliards de points de données sont ainsi créés au quotidien. C’est ce qui permet à Spotify de personnaliser et contextualiser en profondeur l’expérience musicale proposée ; et aussi d’établir des reporting périodiques pour des milliers d’ayants droit portant sur des milliards d’écoutes ; de fournir des tableaux de bord personnalisés d’indicateurs clés à une multitude de labels et d’artistes à l’international ; et de profiler en profondeur ses centaines de millions d’utilisateurs, afin de fournir des outils de ciblage publicitaire toujours plus avancés à ses annonceurs2.
L’application mobile de Spotify accède également aux données de toutes tortes de capteurs actifs sur un téléphone, comme celles concernant la position et le déplacement. "Si nous remarquons que vous conduisez plus vite que d'habitude pour vous rendre au travail, nous adapterons la musique à cette humeur", confiait au printemps 2015 Daniel Ek, PDG de Spotify, à un groupe d'investisseurs3.
Avec l'analyse des métadonnées des chansons, de leur signal audio, des paroles et de données sémantiques collectées sur le Web et les réseaux sociaux pour le filtrage des contenus - à quoi s’ajoute l’analyse de millions de playlists générées par les utilisateurs pour la part de filtrage social4 -, celle des pétaoctests de big data comportementales accumulées par les plateformes de streaming dans leurs datacenters constitue l’un des piliers de leur système de recommandation et de personnalisation musicales de masse - dont l’objectif principal est la fidélisation, l’augmentation du temps passé sur la plateforme et la satisfaction générale des utilisateurs5.
1,5 téraoctet de données par utilisateur chaque jour
En 2013, alors que Spotify ne revendiquait encore que 6 millions d’abonnés et 24 millions d’utilisateurs mensuels - ils sont respectivement 195 millions et 456 millions aujourd’hui6 -, son application de streaming musical collectait 1,5 téraoctet (To) de données compressées par utilisateur et par jour (1500 Go)7, relatait un ingénieur de la firme, Adam Kawa, dans une présentation des infrastructures techniques déployées en interne pour parvenir à stocker et traiter de tels volumes de données8.
En 2015, Josh Boer, chef de produit dans le machine learning et les infrastructures de cloud chez Spotify, indiquait dans une autre présentation que la compagnie s’appuyait sur un réseau de 1300 nœuds Hadoop9 répartis dans quatre fermes de 5000 serveurs (deux aux Etats-Unis et deux en Europe) pour assurer le stockage distribué des big data collectées, et fournir la puissance de calcul parallèle nécessaire à leur traitement10. Afin de supporter l’injection de flux de données quotidiens de plus de 400 téraoctets, la compagnie s’était déjà dotée à l’époque d’une capacité totale de stockage de 42 pétaoctets (42 000 To).
“Lorsque vous vous connectez à Spotify, que vous parcourez votre playlist hebdomadaire Discover Weekly et que vous écoutez un titre, vous interagissez avec une partie de notre flotte d'environ 12 000 serveurs répartis dans quatre centres de données à Stockholm, Londres, Ashburn en Virginie et San Jose en Californie”, confiait en 2016 un ingénieur maison sur le blog R&D de la compagnie11, soit 7000 serveurs de plus qu'un an plus tôt.
Lors de la migration de ses infrastructures de données vers les services de cloud de Google, amorcée en 2016, c’est plus de 100 pétaoctets de données que Spotify a dû transférer depuis ses data centers, a indiqué Ramon Van Alteren, le directeur de programme qui a supervisé l’opération en interne12. A l'époque, le système dorsal de Spotify était capable de transmettre à lui seul "plus de 700 000 événements par seconde à travers le monde", un "événement" désignant toute action effectuée par un utilisateur dans l'interface de Spotify, comme l'ajout d'une chanson à une playlist.
Une mine d’or noir numérique privatisée
A l’instar de Google, Facebook ou Twitter, Spotify, comme nombre de ses consoeurs dans le streaming audio et vidéo, est devenue une entreprise rompue à l’exploitation de montagnes de données comportementales générées par des centaines de millions d’utilisateurs de par le monde, dans le traitement desquelles s’invite de plus en plus l’intelligence artificielle. Plus que les contenus eux-mêmes, qui se retrouvent comme mis en pâture, c’est le véritable or noir de son business.
Le parallèle avec l’or noir du pétrole n’est pas anodin. Comme le pétrole, les big datas musicales sont une ressource considérée comme gratuite et inépuisable, dont le seul coût brut pour les plateformes de streaming est le coût d’extraction, de transport, de traitement et de stockage. La ressource en elle-même, que nous sommes des centaines de millions d’utilisateurs à produire au quotidien, est entièrement gratuite. Nous en tirons quelque avantage en échange, à travers une personnalisation et une contextualisation accrues et de plus en plus fines du service rendu, qui enrichissent notre expérience musicale.
Mais nous n’avons aucune prise sur cette recommandation algorithmique, sa nature, ses objectifs ou ses effets de bulle et biais éventuels, ni aucune autre possibilité de jouissance individuelle ou collective du commun que devrait constituer une telle somme de données sur nos pratiques culturelles et nos goûts musicaux, que celle autorisée par l’interface des plateformes de streaming, somme toute assez limitée. Elles ont de fait privatisées les big data musicales que nous générons en tant qu’utilisateurs, dont elles contrôlent et peuvent orienter l’accès.
Une police privée des données
Dans un ouvrage à la sortie duquel Spotify a tenté de s’opposer, finalement paru chez The MIT Press en 201913, un collectif de chercheuses et chercheurs suédois en sociologie et anthropologie des médias interroge la manière dont la plateforme de streaming capte et exploite ces données comportementales de manière quasi-exclusive (hormis la mise à disposition des développeurs d’applications de quelques API sommaires, ou interfaces de programmation) et dans une absence totale de transparence.
Face à l’absence de coopération de l’entreprise, qui a refusé de leur ouvrir l’accès à ses jeux de données, le collectif de chercheurs a dû déployer un ensemble de méthodes de reverse engineering (ou rétro-ingénierie) pour percer le mystère des “boîtes noires” du système de recommandation de Spotify ; en créant un label “fantoche” dont plusieurs dizaines de robots logiciels (bots) étaient chargés d’écouter les titres à partir de comptes fictifs, afin d’analyser les biais potentiels de ses algorithmes. “Cette attitude de hacker est nécessaire si vous voulez obtenir des informations sur ces entreprises”, a justifié un membre de l’équipe interviewé sur les ondes de NPR Berlin.
Associées à l’étude et la documentation de 224 playlists éditoriales issues des catégories de Spotify basées sur l'humeur et l'activité, les données collectées ont permis aux chercheurs suédois “de lire attentivement les représentations visuelles et les éléments d'interface tout en analysant les processus de personnalisation de la diffusion de musique”, et “de comprendre les effets performatifs de la manière dont Spotify conditionne la musique”.
Des choix éditoriaux qu’il est permis d’interroger
Le lancement par Spotify de ses propres playlists éditoriales en 2013, et l’orientation de toute son interface autour des fonctions de recommandation - son moteur de recherche et le rôle social des playlists d’utilisateurs passant au second plan -, a constitué pour les auteurs un tournant décisif dans le positionnement de la compagnie, qui est alors passée du statut de distributeur à celui de média à part entière, éditeur d’un service de streaming musical dont il était permis d’interroger les choix éditoriaux, et d’étudier les biais éventuels des algorithmes de recommandation.
La plateforme de streaming est désormais plus que proactive, rendant les auditeurs mécaniquement plus passifs. “L'ancienne dépendance au moteur de recherche rendait la consommation de musique dépendante d'une réflexion consciente de la part de l'auditeur, qui était obligé de se demander : ‘quelle musique ai-je envie d'écouter en ce moment ?’", expliquent les chercheurs suédois. De quoi entretenir les fictions du goût individuel et de la liberté de choix du consommateur. La réorganisation de l’interface de Spotify autour de la recommandation a cependant transformé ce consommateur averti des débuts en auditeur passif ayant un besoin urgent de conseils musicaux et d'orientation experte.
La playlist, dont Spotify a à la fois consolidé et modifié le statut, devient l’objet privilégié de cette interface, tandis que les moods (ambiances), assimilés à des activités, remplacent les genres musicaux. Pour les auteurs, cette prégnance des moods est une façon de “présenter la musique comme un moyen d’augmenter la productivité et la performance”, les individus étant de surcroit tous représentés comme des stéréotypes d’une “jeune et heureuse classe moyenne”, ce qui peut être interprété comme.un biais idéologique.
Un pouvoir “curatorial” orienté
“Spotify utilise en outre sa capacité éditoriale pour promouvoir ses propres playlists au détriment de celles créées par les majors de la musique et d'autres tiers”, affirme Leslie Zwerwer, chercheuse au Center for Information Technology de l’Universté de Groningen aux Pays-Bas, qui s'appuie sur une analyse des tweets de la compagnie faisant la promotion de contenus sur son compte twitter @spotify entre 2012 et 2018, qui font la part belle à ses playlists éditoriales14. Grâce à elles, "les plateformes comme Spotify utilisent la curation ou le "pouvoir curatorial" pour médiatiser les marchés dans le but de promouvoir leurs propres intérêts”, écrit son confrère Robert Prey dans l’un de ses nombreux articles sur la “plateformisation” de la musique15.
Le rôle toujours plus important joué par les playlists éditoriales de Spotify dans son interface peut lui permettre, dans sa quête de rentabilité, de réduire sa dépendance vis-à-vis des maisons de disques et le coût de ses revenus, composé à 80 % des royalties que la plateforme leur reverse, en privilégiant la mise en avant de contenus moins couteux pour elle, ou dont elle détient les droits, comme les faux artistes16 ou les podcasts17. L’intégration de ces derniers dans la playlist personnalisée Mon Daily, présentée comme “un mix d’actualités et de playlists musicales conçues spécialement pour vous”, est une illustration de cette stratégie de diversion plus que de diversification, que certains acteurs du marché poussent déjà très loin.
C’es le cas du chinois Tencent Music, qui mise sur la production de contenus originaux exclusifs pour réduire son coût des revenus, et moins dépendre des coûteuses licences de l’industrie musicale pour ses opérations. La plateforme chinoise a investi à cette fin dans la mise à disposition des artistes indépendants de toute une panoplie d’outils et de services de création, de production, de marketing et de distribution de leur musique. Ils sont déjà 300 000 à les avoir adoptés, qui viennent alimenter son catalogue en contenus exclusifs18.
“La proportion de contenu original diffusé en streaming sur la plateforme par rapport au total des écoutés a presque doublé par rapport à l'année précédente”, confiait début 2020 la compagnie, qui a lancé son propre programme de détection de nouveaux talents s’appuyant sur l’intelligence artificielle : “Ce programme a non seulement produit des succès populaires tels que ‘Girl by the Bridge’ en 2019, qui a atteint plus de 1,1 milliard d’écoutes en février 2020, mais il a également réussi à promouvoir des artistes émergents comme Yongbin Ryan.B et Uu en tant que super stars montantes”, indique t-elle.
Un consommateur de musique infantilisé
Peu importe les biais introduits par la politique de recommandation et les playlists éditoriales des plateformes de streaming si le consommateur a un large choix d’offres de services qui se différencient dans leur manière de conditionner la musique, de la formater (en mettant plus en avant les albums que les playlists dans leur interface, par exemple) et de la recommander (en laissant plus ou moins la main aux algorithmes) ; ou bien par les catalogues qu’elles mettent en avant et les publics qu'elles ciblent19. Force est de contater que ce n'est pas vraiment le cas, mais c'est un autre problème20.
Plus problématique est la confiscation des datas musicales que ces entreprises collectent à leur seul profit. L’interface de Spotify a finalement très peu évolué pour ce qui est de partager ne serait-ce que l’historique horodaté de toutes ses écoutes avec l’utilisateur, et toutes sortes d’informations (comme les artistes, genres et titres qu’il a le plus écoutés sur telle ou telle période) qui définissent son profil musical. La fourniture ponctuelle de statistiques annuelles personnalisées à chaque utilisateur n’est à cet égard qu’un pâle succédané..
L’accent ayant été mis sur le guidage automatisé d’une écoute passive, qui permet de mieux controler et canaliser son attention, le logiciel de Spotify a également peu évolué pour ce qui est d’améliorer l’autogestion de sa bibliothèque musicale par l’utilisateur, de l’assister dans la génération de playlists personnelles, de lui fournir des statistiques et des outils d’analyse qualitative de sa consommation de musique - et plus généralement, de l’aider à devenir plus autonome et proactif. Le consommateur de musique se retrouve de fait comme infantilisé, aucun effort d’intégration de ressources éditoriales externes, qui pourrait ajouter une autre dimension à son expérience musicale, en introduisant un logique alternative de navigation dans le catalogue disponible, n’ayant par ailleurs été poursuivi.
Pour un commun des big datas musicales
Le fan de musique averti un peu hacker sur les bords parviendra toujours à jouer avec les algorithmes de Spotify pour en tirer quelque parti21. Quantité de services Web externes bricolés par des développeurs indépendants, comme statsforspotify.com, permettent d'extraire quelques insights et autres statistiques très partielles de son historique d’écoute en interrogeant les API de Spotify, et de générer automatiquement des playlists à partir de ses top tracks, top artistes et top genres.22
Beaucoup plus abouti, le dispositif de scrobbling mis en oeuvre par le site communautaire Last.fm, qui a eu son heure de gloire dans les années 2000 et vient de fêter ses vingt ans23, permet à ses utilisateurs d’enregistrer leur propre historique d’écoute horodaté sur ses serveurs et leur fournit toutes sortes de rapports très instructifs sur leur profil musical. Le scrobbler de Last.fm peut être activé sous Spotify, Deezer, Amazon ou Apple Music. Le profil Last.fm de l’auteur24, qui trace ses écoutes depuis 2003 (au départ, depuis le lecteur MP3 Winamp), fait état de près de 92 000 écoutes d’environ 42 000 titres, interprétés par 8350 artistes différents, et extraits de près de 18 000 albums.
Outre les top albums, artistes et titres sur différentes périodes (semaine, mois, trimestre, semestre, années), Last.fm indique dans ses rapports le nombre de “scrobbles” ou d’écoutes enregistré dans la période choisie, le nombre moyen de scrobbles par jour, le temps total d’écoute, et l’évolution de ces indicateurs par rapport à la période précédente ; mais aussi le nombre d’artistes, de titres et d’albums différents écoutés ; la proportion de nouveaux artistes, nouveaux titres et nouveaux albums dans le total des écoutes ; une tags timeline des différents genres écoutés sur la période ; une listening clock permettant de déterminer ses heures d’écoutes les plus actives ; et la position de l’utilisateur dans différents classements (ceux qui ont écouté le plus de titres sur la période; ceux qui ont écouté le plus de nouveautés, etc.).
Du “scrobbling” généralisé
Etendue aux 22 millions d’utilisateurs du streaming musical en France, qui ont totalisé plus de 93 milliards d’écoutes en 2021, selon les chiffres publiés par le SNEP, une généralisation du scrobbling, qui viendrait abonder une vaste base de données publique et décentralisée, permettrait à chacun d’accéder à une connaissance approfondie de son propre profil musical.
Gérée comme un commun, la somme des big datas musicales collectées constituerait également une ressource inépuisable pour tout sociologue de la musique qui souhaiterait dresser le profil musical de différentes catégories socio-démographiques, d’une ville, d’une région, du pays ; et pour tout développeur d’applications, professionnelles ou non, qui souhaiterait en tirer parti : par exemple, pour éclairer les agences de booking sur les villes où il est plus intéressant de programmer tel ou tel artiste, en fonction du degré d’appétence de la population pour sa musique ou des artistes similaires ; ou pour innover dans notre interface avec (et “expérience” de) la musique.
est un média professionnel libre et indépendant qui a besoin du soutien de ses lecteurs pour exister et se développer.
Les fonctions de ciblage contextuel avancées de la place de marché Spotify Audience Network, qui facilitent leur accès à son inventaire publicitaire de 4 millions de podcasts, séduisent de plus en plus d'annonceurs. Spotify met à leur disposition, via sa plateforme Ad Studio, une large gamme d'outils de ciblage démographique, géographique et par segment d'audience très faciles à utiliser. C’est ce qui participe, avec la progression du nombre des MAU (utilisateurs mensuels) de son service gratuit, de la forte progression de ses revenus publicitaires (+ 62 % l’an dernier), et de la baisse du coût de ses revenus relativement à son chiffre d’affaires global.
The Spotify Play, How CEO and Founder Daniel Ek Beat Apple, Google and Amazon in the Race for Audio Dominance, par Sven Carlsson ert Jonas Leijonhufvud, Diversion Books, janvier 2021
En étudiant les co-occurrences de titres dans les playlists et les sessions d'écoute, les algorithmes de filtrage collaboratif de Spotify accèdent à un niveau de détail plus profond et capturent des signaux utilisateur bien définis. La combinaison de cette approche collaborative avec celle basée sur l’analyse du contenu permet au système de recommandation de Spotify de développer une représentation holistique des titres. À ce stade, le profil du titre est encore enrichi en combinant les résultats de plusieurs algorithmes indépendants pour générer des vecteurs de plus haut niveau (humeur, genre, style, etc.). Pour transformer ces données sur les titres et les artistes en recommandations pertinentes, le moteur doit les croiser avec les données décrivant le profil musical des utilisateurs.
Un guide complet des algorithmes de recommandation de Spotify, music_zone, février 2022
Spotify Revenue and Usage Statistics (2022), BusinessOfApps
Fin 2017, 46 % des 160 millions d’utilisateurs mensuels de Spotify (soit plus de 70 millions) ont utilisé le service au quotidien, soit 105 exaoctets (105 000 pétaoctets) de big data collectés chaque jour.
(Big) Data at Spotify, par Adam Kawa, ingénieur de données chez Spotify, mars 2014
Les entreprises qui gèrent des big data ont souvent recours à Hadoop Distributed File System (HDFS), une infrastructure open source dédiée au stockage et au traitement de larges volumes de données, qui facilite leurs transferts rapides et permet aux systèmes traitant plusieurs pétaoctets d'informations de fonctionner en continu.
The Evolution of Big Data at Spotify, par Josh Boer, chef de produit Machine Learning and Cloud Infrastructure chez Spotify, juin 2015
Managing Machines at Spotify, Spotify Labs (blog), March 25, 2016
How Spotify migrated everything from on-premise to Google Cloud Platform, Computer World, juillet 2018
Spotify Teardown, Inside the Black Box of Streaming Music, par Maria Eriksson, Rasmus Fleischer, Anna Johansson, Pelle Snickars et Patrick Vonderau, The MIT Press, 2019
Platform pop: disentangling Spotify’s intermediary role in the music industry, par Leslie Zwerwer, Center for Information Technology, Université de Groningen, 2020
Locating Power in Platformization: Music Streaming Playlists and Curatorial Power, par Robert Prey, Université de Groningen, département des Medias and Journalism Studies, 2020.
What Is a ‘Fake’ Arstist in 2022, The New York Times, avril 2022
Tencent Music Entertainment a également annoncé récemment avoir créé et diffusé plus de 1 000 titres contenant des voix créées par une IA qui imite la voix humaine. L'un de ces titres a déjà dépassé les 100 millions de streams sur la plateforme. Selon TME, la technologie de synthèse vocale utilisée permet de "reproduire fidèlement” la voix de chanteurs ou chanteuses disparues pour produire des chansons originales dans n'importe quels style ou langue. (cf. Over 1,000 songs with human-mimicking AI vocals have been released by Tencent Music in China, Music Business Worldwide, novembre 2022)
Une segmentation du marché à laquelle a par exemple contribué la plateforme française Qobuz, qui fut la première à opter pour un son haute fidélité, à fournir des métadonnées exhaustives sur son catalogue, et à éditorialiser fortement son offre, en mettant plus particulièrement l’accent sur certaines esthétiques comme le jazz et la musique classique.
Le marché du streaming musical s’est structuré de manière oligopolistique, avec quatre acteurs dominants au niveau mondial, qui sont Spotify, Apple, Amazon, et Tencent en Asie, lesquels incarnent un modèle d’offre qui conduit à une extrême concentration du marché. Le secteur du streaming musical est en effet plus que jamais une économie de mégastars, dans laquelle 1 % des artistes capte 90 % de l'audience et des revenus (cf. Règle du 90/1, le plafond de verre du streaming,
, septembre 2020).cf. Un funky trip algorithmique, makno & co, mai 2021
Les top titres, artistes et genres délivrés par statsforspotify.com portent sur des périodes pré-définies (4 dernières semaines ; six derniers mois ; depuis l’origine) qui ne peuvent être paramétrées librement. Cf. la playlist Top Tracks 30/11/2022 (all time) générée par statsforspotify à partir de l’historique d’écoute de l’auteur.
Last.fm turns 20 and now has a following on Discord, The Verge, novembre 2022
Concernant les données associées à l'écoute des utilisateurs, que pensez-vous du projet ListenBrainz à cet égard? Je crois que nous devrions être plus nombreux à interconnecter nos profils Spotify avec Last.fm et ListenBrainz.