Expl0651: NSynth, KI-Musik


Als die ersten Personal Computer aufkamen, waren wir bald alle Programmierer, Grafiker und Komponisten in Personalunion. Heute, mit Deep Learning als Methode, könnte uns Computer neue, ungeahnte Möglichkeiten für die Musik eröffnen. Meint man bei Google Brain, wo man NSynth entwickelt hat, den Neuronalen Synthesizer.


Download der Episode hier.
NSynth, das Soundmaker-Experiment mit Kühen, Katzen und Hunden!
Opener: „Dancing Robots – Children’s Song“ von The Learning Station
Closer: „Infinite Looping Siri, Alexa and Google Home“ von danrl
Musik: „i want to be a machine (2007)“ von PORNOPHONIQUE / CC BY-NC-ND 3.0


Ich wollte schon lange ‘mal damit angeben, dass ich Game-Designer bin. Jawohl. (hüstelt) War.Vor Äonen habe ich mit meinem Kumpel Bobo auf dem C64 ein Spiel programmiert. In Basic. Ich erinnere mich nicht mehr, wie wir das genannt haben. Irgend ‘was mit „Cyber“ auf jeden Fall.

Vier Spieler sind dabei die Alleinherrscher über ihr Land. Jeder fängt mit 20 Bauern, 20 Arbeitern, zwei Spionen und null Soldaten an. Man kann Allianzen schmieden und Soldaten ausbilden, Spione ausschicken – ihr kennt das, eine schräge Softwareversion von „Risiko“.

Wir saßen also zu viert da und unterhielten uns prächtig. Abwechselnd schritt dann immer einer von uns von der Couch an den Rechner und schaltete und waltete. Wir bauten das Spiel allmählich aus. Am meisten Spaß machten uns bald die Anreden. Der Computer sagte dann: „Willkommen, allmächtiger und übelriechender Diktator von Olivien.“ Also, er schrieb das auf den Bildschirm. Dahinter war ein Zufallsgenerator, der aus einem Wortfeld immer neue Lobpreisungen erdichtete.

Dann hatten wir bald ein Chat-Element eingebaut, mit dem man für die anderen Nachrichten hinterlassen konnte. Beschimpfungen wäre vielleicht akkurater. Der Strategieteil wurde immer unwichtiger.

Und das erzähle ich…. Weil… Ach ja, wegen der Künstlichen Intelligenz. Wir haben damals, 1983 oder so, alle Versprechungen geglaubt. Aber nichts war mit Spracherkennung, nix war mit Schrifterkennung, nix war mit Künstlicher Intelligenz.

Wenn der Rechner Handschrift entschlüsseln sollte, dann scheiterte er kläglich. Jahrzehntelang. Kann man ja auch verstehen. Wenn ich meine Handschrift neben die beiden von der Ellen lege – die schreibt links und rechts – und mir dann ausmale, ich müsste dem Computer jetzt erklären, was ein kleines „O“ ist und warum ein kleines „A“ ganz anders ist: Dicke Wälzer voller Regeln könnte man da schreiben. Regeln schreiben ist sozusagen der zweidimensionale Ansatz der Programierung.

Doch mittlerweile machen die Computer da riesige Fortschritte. Wir haben mit neuronalen Netzen ein Modell entwickelt, dass in Mustererkennung ähnlich arbeitet wie das menschliche Gehirn. Eher dreidimensional als zweidimensional. Eine Ebene erfasst den Pixelhaufen, die nächste Ebene erkennt anhand von Kontrasten Kanten und Linien, die dritte Ebene Grundformen, die vierte Ebene Wortzusammenhänge, die fünfte Satzgebilde und dann ist die Handschrift erkannt. Na ja, das Beispiel ist jetzt zu einfach, um tatsächlich richtig zu sein.

Aber im Prinzip ist das ungefähr „Deep Learning“, eine Art des maschinellen Lernens. Statt Regeln zu erdichten, lassen wir den Computer diese Regeln selber finden. Eher einen Regelraum als eine Liste mit Befehlen.

Das kann man natürlich auch auf Audiodateien anwenden. Deep Learning ist der Grund, warum spracherkennende Systeme mittlerweile doch befriedigend gut funktionieren. Egal ob Siri, Cortana, Google Now oder Alexa: Wer in den letzten dreißig Jahren mit Spracherkennung zu tun hatte, muss begeistert sein, endlich haut das einigermaßen hin. Und das wird eine große Zukunft haben.

Wir Menschen haben aber zwei Sprachen erfunden. Die andere Sprache außer der Sprache… äh… ist die Musik. Da könnten wir die Deep-Learning-Intelligenz auch einmal drauf ansetzen. Dachten sich auf jeden Fall die Forscher bei „Google Brain“, die an dem mächtigsten System für Deep Learning sitzen, mit dem Internet als Datenbank im Hintergrund.

These eins der Forscher war: Musik besteht aus Klängen. Aus einzelnen Klängen. Und ein Klang besteht aus einer bestimmten Klangfarbe und einer gewissen Tonhöhe, einer Frequenz. Der Kammerton A hat z.B. eine Frequenz von genau 440 Hertz. Andere Noten mit dem Buchstaben A haben 220 Hertz oder 110 Hertz, das ist ja das mathematisch Hübsche an unserem Notensystem.

Was aber ist eine Klangfarbe? Was ist der Unterschied zwischen einem Bass, einem Glockenspiel oder einem Flügelhorn? /clips Original. Zu kurz? Nochma.

Wenn wir das dem Computer erklären wollen und zweidimensional arbeiten, dann müssten wir wieder Regeln erfinden. Und das entstehende Regelwerk wäre noch unsäglich viel komplexer als bei nur 26 Buchstaben.

Aber dank Google Brain gibt es jetzt NSynth. Kurz für „Neuronaler Synthesizer“. Der verschiedene Klangfarben erkennt und verwenden kann.

Man muss das noch einmal besser erklären. Denn es gibt ja bereits elektronische Musik.

Bis jetzt haben wir das auf zwei Methoden gemacht. Wir können unseren Keyboards zum Beispiel ein einzelnes Sample vorspielen. Zum Beispiel ein Klatschen. /klatscht. Und das Keyboard nimmt dieses Sample und kann das jetzt in alle Frequenzen modulieren, die wir Noten nennen. Ungefähr so halt. /clip clapsong

Die andere Methode, Klangfarben zu simulieren, war bisher rein elektronisch. So wie in Hippies, die an einem Korg Drähte umsteckten, bis der erzeugte Sound einer Fanfare elektronisch nachgeahmt war. Diesen Anstrengungen verdanken wir z.B. den Ohrwurm des Tages. /clip europe

NSynth ist aber weder das eine noch das andere. Wie bei dem Beispiel mit der Handschrift entziffert das Deep-Learning-System selber, was die typische Klangfarbe eines Instruments ist. Das ist noch nicht 100%ig superduper, aber die Ergebnisse sind schon beeindruckend. Das ist Nsynths Version eines Bass, eines Glockenspiels und eines Flügelhorns. /clips

O.k. Noch nicht begeistert? Verstehe. Dann lasst es mich anders formulieren. Durch diese Forschungsarbeit entsteht ein riesiges dreidimensionales Netz aller möglichen Klangfarben. Wir sind durch Nsynth nicht mehr darauf beschränkt, mit einem bestimmten Instrument eine bestimmte Note zu spielen. Alle Mischformen sind denkbar. Oder ganz neue Formen.

Die künstliche Intelligenz hat damit, wenn man es sehr, sehr romantisch formulieren möchte, eine fast unendliche Anzahl an neuen Instrumenten für uns erfunden, die es vorher nicht gab. Das könnte sehr, sehr interessant werden.

Das Forscherteam und Google stellt mit dem NSynth-Soundmaker auch eine spielerische Version ihrer Arbeit ins Netz, bei dem man selber neue Instrumente aus zwei Klangfarben mischen kann. Link auf exolikator.de

Hier zum Beispiel eine Tonleiter in meiner neuen Lieblingsklangfarbe: /clip sitar_cat
Das ist das neue Instrument genau zwischen den beiden alten Instrumenten Sitar und Katze.

Ähnlich interessant klingt das hier: /clip harp_cow
Die genaue Mitte der Klangfarben einer himmlischen Harfe und einer irdischen Kuh.

Findet ihr nicht so toll? Ist ja auch nicht wirklich sooo super. Aber das ist nur der erste Wurf. Das wird noch toll, glaube ich. Gerade Film und Fernsehen werden da für ihre Soundtracks ganz neue Möglichkeiten haben. Also, ich muss jetzt einmal weiter damit rumspielen.

Vibraphone. Cooler Sound… Das mische ich jetzt einmal mit „Gans“. Das könnte noch nerviger sein als Trompete und Hund…