Verändert künstliche Intelligenz die zeitgenössische Musik?

28.06.2022
Künstliche Intelligenz
Künstliche Intelligenz bestimmt nicht nur unseren Alltag, sie wird auch mehr und mehr ein Teil der Musik. Lernende Maschinen und Algorithmen sind mitunter gleichberechtige Partner der Kompositionen.

Nichts an einer Raupe verrät, dass sie ein Schmetterling wird – wusste schon Richard Buckminster Fuller in den Sechzigern über die ebenso tiefgreifende wie umfassende Wirkung scheinbar marginaler Veränderungen zu sagen. Unscheinbar und von der globalen Öffentlichkeit weitgehend mit Schulterzucken abgesegnet, macht auch die Entwicklung künstlicher Intelligenz seit einigen Jahren enorme Fortschritte, deren Katalysator immer wieder wir Menschen selbst, genauer: unsere Interaktionen sind.

Die Algorithmen von Alphabet und Apple, von Twitter und TikTok, von Meta und Microsoft speisen sich aus unseren Suchanfragen ebenso wie aus Produktnutzungsinformationen, Unterhaltungen mit Alexa oder Siri, Software-Backdoors, legaler wie illegaler Metadatenerhebungen und computerlinguistischer Verfahren zur Auswertung all dessen. Sprache ist immer essenziell für die Annäherung an die Singularität, also an den Moment, der im mittlerweile militärisch unterfütterten KI-Business die Reproduktion von menschlicher Intelligenz durch Maschinen einläutet.

Daneben stehen hunderte Milliarden US-Dollar, die das Department Of Energy (DOE), das Pentagon und der transhumanistische Mikrokosmos Silicon Valley in black budget Programmen für die Erforschung neuronaler Netze, lernender autonomer Systeme und Robotics ausgibt – Ziel: unbekannt.

Auch die Kulturtechnik manipulierter Klänge, von uns gemeinhin als Musik bezeichnet, bleibt von diesen Entwicklungen nicht unberührt. Künstliche Intelligenz sorgt nicht nur dafür, dass Menschen bei Spotify erst neue Künstler, dann aber die immer gleichen Style-Raster und Subgenres empfohlen bekommen und schließlich in ihrer eigenen Geschmacksblase wiederkäuen, was ihnen Algorithmen vorsetzen.

Sie ist mittlerweile auch Bestandteil des musikalischen Schaffens selbst – ob als lernende Software zur Vokalgenese, dynamische Aufnahme- und Modulationstechnik oder automatisierte Blackbox zur Kreation einzelner Patches, ganzer Songs, collagenartiger Cover-Artworks oder maschineller Melodien. Nicht nur die Art, wie wir Musik rezipieren, sondern zunehmend auch wie wir sie kreieren und verbreiten ist von Prozessen geleitet, die mehr oder weniger künstlicher Intelligenz beziehungsweise lernenden Systemen entspringen – und das nicht erst seit gestern.

Maschinen musizieren selbst

Bereits 1960 veröffentlichte der Informationstechnologe Rudolf Zaripov im sowjetischen Journal »Доклады Академии Наук СССР, Doklady Akademii Nauk SSSR (DAN SSSR)« das erste wissenschaftliche Papier mit Bezug »Zur algorithmischen Beschreibung des Prozesses der Musikkomposition« und nutzte dazu einen Röhrencomputer der ersten Generation »Ural-1«, später die Nachfolger zwei bis vier. Zwar waren schon Anfang der 1950er-Jahre von der BBC wackelige Aufnahmen eines Ferranti Mark 1-Computers und seiner Interpretationen von »Baa Baa Black Sheep« (englisches Kinderlied) sowie »In The Mood« (Glenn Miller) erstellt worden, doch das waren Beispiele wissensbasierter Synthese, keine wirkliche autonome generative Musik, wie wir sie heute erst beginnen zu begreifen.

Über die inhaltliche Definition von »AI music«, »KI-Musik« oder »Algosound« herrscht immer noch ebenso Uneinigkeit wie über die Bezeichnungen selbst. Die frühen und historisch sicher bedeutsamen Sounds eines IBM Mainframe Computer (Bell Labs, 1957) oder der australische CSIRAC-Rechner (Pearcey, Beard, Hill, 1950) zählen jedenfalls noch nicht dazu. Möglich ist aber, dass Ray Kurzweils Auftritt bei »I’ve Got a Secret« im Jahre 1965 (siehe Video unten) als zumindest erster öffentlicher Moment gelten kann, in dem ein lernendes algorithmisches System mit Mustererkennung eigene Melodien komponierte.

Es waren frühe Gehversuche einer gänzlich neuen Musik, die Maschinen als handelnde Subjekte integrierte und die sich parallel zum Fortschritt der Halbleitertechnik weiterentwickelte. Trotzdem: Für fast drei Jahrzehnte blieben Ansätze generativer Musik, egal wie weit entwickelt, eher der elektroakustischen Avantgarde und jenen Tech-Geeks vorbehalten, die mit den programmiertechnischen Hürden und dem Stand der Technik umgehen konnten.

Von Karlheinz Stockhausen bis Pierre Boulez, von Roger B. Dannenberg bis David Cope, vom Akusmatiker Roland Kayn bis zum Ambientologen Brian Eno waren es Wissenschaftler und Exzentriker an den Rändern des Hörbaren, die Maschinen immer weniger als Werkzeuge statt sukzessive in den Vordergrund tretende, von ihren Schöpfern emanzipierte Akteure betrachteten. So gelang es 1997 dem Programm »Experiments In Musical Intelligence« (EMI, oder Emmy) ein ganzes Publikum davon zu überzeugen, dass die Eigenkomposition ein Original von Bach sein müsse und eher danach klinge als das Stück des menschlichen Gegenspielers Dr. Steve Larson.

Im Jahr 2012 ging das London Symphony Orchestra auf dem Album »Iamus« so weit, die Musik gänzlich von einem Computer Cluster namens Melomics komponieren zu lassen, welche vom Orchester dann interpretiert werden musste. Brian Eno selbst fand für diese akustische Akkommodation der Mensch-Maschine in verschiedenen Interaktionssituationen einen bis heute gültigen aber langsam bröckelnden Begriff, als er ab 1995 mit der Software Koan experimentierte: »Generative Musik«.

Daten statt Noten

Mit der Jahrtausendwende hob das Internet ab – Suchmaschinen und Plattformkapitalismus, Algorithmen zur Mustererkennung in allen denkbaren Datenclustern, die Architektur von Mikroprozessoren sowie die Glasfaserinfrastruktur, aber auch die Makroprozesse des gesellschaftlichen Überbaus schlugen Kapriolen. Künstliche Intelligenz, oder was von unterschiedlichen Seiten so genannt wurde und wird, wandelt sich seither schneller denn je.

Produzentinnen und Produzenten unterschiedlichster Gattung erkennen zunehmend das Potenzial generativer Musik und beginnen, verschiedene Methoden der Synthese zu verbinden: stochastische Modelle, wissensbasierte Systeme, die mit gigantischen Datenmengen gefüttert werden, computerlinguistische Grammatiken, Evo-Devo-Ansätze oder maschinelles Lernen (auch: deep learning), bei dem künstliche neuronale Netze eine (noch!) vom Menschen abhängige Dynamik im Kompositionsprozess und der akustischen Reproduktion entwickeln – zur Anwendung kommt alles, was technologisch machbar ist, sowohl isoliert als auch kombiniert.

Und das, was machbar ist, kann mitunter ebenso begeistern wie beunruhigen. An einem Ende des Spektrums stehen dabei Entwicklungen wie etwa die Software Travis Bott (siehe Video oben), die mit tausenden MIDI-Files arbeitet, welche wiederum aus Melodien und Beat-Sequenzen, aber auch Bars und Texten von Travis Scott extrahiert wurden und diese im Track »Jack Park Canny Dope Man« zu einer Art künstlerischen Quersumme Scotts kondensiert, mit verblüffend gelungenem Resultat.

Sicher, die Musik Scotts ist mit ihrem diatonischen Aufbau und den simplen Klangfolgen zwar prädestiniert für KI-Imitationen, die dem Original schon sehr ähnlich sind, doch das ist nur einer von vielen Anfängen bei der Entwicklung dieser Technologie.

Worin liegt das ästhetische Potenzial?

In Japan war man schon Jahre vorher ein paar Schritte weiter, wie so oft. Mit Miku Hatsune (dt. »erster Klang aus der Zukunft«) veröffentlichte das Unternehmen Crypton Future Media 2007 eine künstliche Gesangsstimme, basierend auf dem Software-Synthesizer Vocaloid2, die innerhalb weniger Jahre zu einer virtuellen Pop-Ikone aufstieg und bis heute genauso vermarktet wird wie ihre menschlichen Kolleginnen und Kollegen im hochgradig durchkommerzialisierten japanischen Popgeschäft. Ein für die Majors der Insel dabei besonders schmackhafter Unterschied: In weniger als sechs Jahren sang Hatsune über 100.000 Stücke ein – mehr als alle japanischen Kunstschaffenden zusammen. Ein feuchter Traum aller Verwertungsgesellschaften, denn ihre Songs kommen an. Regelmäßig landet sie in den japanischen Oricon-Charts, sahnt Awards ab oder wird selbst für westliche Fernsehformate (»Late Show with David Letterman«) und große Festivals (Coachella) gebucht.

Am anderen Ende und musikalisch völlig anders geartet aber ähnlich bahnbrechend, stehen Systeme wie der 2016 geschaffene deep learning Algorithmus AIVA (Artificial Intelligence Virtual Artist), der Werke von Bach, Beethoven, Mozart und anderen analysiert und daraus eigene Kompositionen ableitet. AIVA ist bis heute die erste Software, die als eigenständige Komponistin von einer Musikverwertungsgesellschaft, der französischen SACEM, anerkannt wird.

Drohen solche Systeme aus Datenbanken, Code und PR-Abteilungen künftig menschlichen Popstars den Rang abzulaufen? Einige meinen, das sei schon der Fall. So ließ sich die kanadische Pop-Futuristin Grimes 2019 im Mindscape Podcast dazu hinreißen, das künftige Aussterben menschlicher Künstler zu prophezeien: »Früher oder später wird KI all unsere Hormone, Gefühle, emotionalen Regungen emulieren und verstehen, was für uns große Kunst und wahre Innovation ist. Wahrscheinlich sogar besser als wir.«

»Früher oder später wird KI all unsere Hormone, Gefühle, emotionalen Regungen emulieren und verstehen, was für uns große Kunst und wahre Innovation ist. Wahrscheinlich sogar besser als wir.«

Grimes

Dass die Liaison von Elon Musk eine derart dramatische und technophile Zukunft antizipiert, überrascht kaum. Künstlerinnen wie Holly Herndon sehen eine andere Entwicklung dominanter, die künstliche Intelligenzen, oder lernende Systeme, eher als neue Werkzeuge oder vielleicht sogar neue Bandmitglieder und Sessionmusiker begreift. 2019 veröffentlichte sie zusammen mit ihrem Mann Mat Dryhurst das Album »Proto«, auf dem das von beiden entworfene neuronale Netzwerk SPAWN zum Einsatz kam. SPAWN wurde über Wochen und Monate mit einer Vielzahl von Stimmen unterschiedlicher Umfänge und Timbre gefüttert, von Solisten ebenso wie von Chören trainiert und reproduzierte daraus eine eigene Stimme, oder vielmehr ein Repertoire an Stimmlagen, die den Gesang Herndons ebenso untermalen wie erweitern, akzentuieren wie kontrastieren können.

»Die eigentlich interessante Frage ist doch: Was an dieser Technologie kann uns eine neue Ästhetik, neue Potenziale aufzeigen, von denen wir wiederum lernen können? Statt einfach die Geschichte menschlicher Musik zusammenzukratzen und daraus eine generische Schnittmenge zu entwerfen – das wäre ein eher langweiliger Ansatz mit einem neuronalen Netzwerk zu arbeiten«, gab sie damals zu bedenken.

Die KI ist, was sie isst

Herndons Fokus liegt also auf einer möglichst menschlichen Stimmsynthese, die aus gehörten und erlernten Stimmen ihre eigene entwirft. In den letzten Jahren wurden Algorithmen aber auch immer gezielter auf die Erkennung und Reproduktion von Beatmustern, Akkordfolgen, Sampling, Sequenzierung und Klangfarben abgerichtet. So haben Sean Booth und Rob Brown aka Autechre etwa 2018 ihren Max/MSP-Algorithmus mit unzähligen Parametern ausgestattet, tagelang jammen bzw. Muster erkennen lassen und anschließend live im Austausch mit der Maschine die acht Stunden Material der »NTS-Sessions« zusammengeschraubt – eines ihrer bislang womöglich ambitioniertesten Projekte.

Die Resultate sind auch vier Jahre später nichts weniger als atemberaubend und demonstrieren anschaulich, wie mächtig das Tool eines intelligenten, lernenden Systems in den richtigen Händen sein kann. So arbeitet auch der britische Sound-Skulpteur Darren J. Cunningham aka Actress seit 2018 mit einem eigenen Algorithmus, den er »Young Paint« taufte und auf der gleichnamigen Debüt-EP in fremdartig futuristische Gewässer aus Outsider House, Dub Techno und generativer Musik eintauchen ließ.

Young Paint kollaborierte bereits mit der in L.A. ansässigen Künstlerin K Á R Y Y N für ihre elegische »Quanta«-Serie und wird seither von Cunningham konstant weiterentwickelt. Währenddessen veröffentlichten die beiden Briten James Ginzburg und Paul Purgas als Emptyset das Album »Blossoms« (2019). Auch in Kooperation mit einer Software entstanden, zeigt sich hier, wie eiskalt verstörend diese Verschränkung aus technologischen Hybriden und algorithmischen Mutationen geraten kann, wenn das jeweilige System mit dem entsprechenden Material gefüttert wird – die KI ist, was sie isst. Noch.

Related reviews

Ähnlich beunruhigend klingt daher auch das 2020 veröffentlichte »A Late Anthology Of Early Music Vol. 1: Ancient To Renaissance« der irischen Improvisationskünstlerin Jennifer Walshe, die hier in Kooperation mit dem US-amerikanischen Duo Dadabots ein neuronales Netzwerk auf das linguistische Training ihrer A cappella-Aufnahmen ansetzte – über 40 (simulierte) Generationen oder 1200 Jahre lang. Vielleicht wird sich also ebenso der Zustand, der tonale Ausgangspunkt klassischer Musik durch künstliche Intelligenz in den kommenden Jahren wandeln?

Doch sogar abseits des westlichen Musikkanons machen sich Künstler daran, neue Ausdrucksformen mit den Werkzeugen lernender Systeme zu suchen. So veröffentlichte erst letztes Jahr das ugandische Trio Metal Preyers mit dem Mixtape »432+« einen selbst in diesem Bereich unkonventionellen Take generativer, post-industrieller Experimente, die sich bei Ambient Dub, Field Recordings, tribaler Elektroakustik, R&B und Noise bedienen. Zwar kamen lernende Systeme hier nur sehr begrenzt zum Einsatz, aber schon das genügt offenbar, um völlig andersartige Soundscapes zu verwirklichen, denen diese spezielle, robotische Note anhaftet. Wo »KI-Musik« beginnt und wo sie aufhört – das bleibt allerdings immer noch schwer zu definieren.

Sicher ist: Die Entwicklungen stecken in den Kinderschuhen und kaum ein Ansatz, der aktuell von Künstlern weltweit verfolgt wird, integriert tatsächlich Systeme, die wir als »intelligent« in einem klassisch menschlichen Sinne erachten können – vor allem deshalb, weil es sie schlichtweg noch nicht gibt. Vielleicht ist aber auch Kritik an unserer sehr beschränkten Definition von »Intelligenz« in dem Kontext angebracht, um am Ende vom Anfang zu begreifen, was wir damit eigentlich meinen – und was auf uns zukommt.

Dieser Beitrag ist Teil des Themenschwerpunkts

Mathematik & Musik

Unter dem Themenschwerpunkt fassen wir Beiträge zusammen, welche sich mit dem Zusammenhang zwischen Mathematik und Musik beschäftigt. Metriken, Zahlen, Geometrie, Formen, Stochastik, Algorithmen - das alles spielt eine nicht zu verachtende Rolle in der Musik, der wir hier nachgehen wollen. Musiker*innen spielen damit in ihren Kompositionen, in ihren Texten, den Artworks ihrer Schallplatten, machen sie mitunter zum Teil ihrer Identität.

Zu den Beiträgen