Texte mit GPT-2


Vor zwei Tagen hat die Firma OpenAI auf ihrem Blog davon berichtet, dass sie ein besonders leistungsfähiges textorientiertes KI-System entwickelt hat. Das System sei so leistungsfähig, dass man sich entschieden habe, das Modell, anders als üblich, nicht komplett zu veröffentlichen. In der Ankündigung finden sich einige Samples des kompletten Systems, die recht überzeugend sind. Das System scheint, wenn man den Samples Glauben schenkt, in der Lage zu sein, Text zu erzeugen, der über mehrere Absätze auch semantisch einigermaßen kohärent ist.

Über das System lässt sich ansonsten nur spekulieren – es ist noch nicht öffentlich dokumentiert. Allerdings hat das Forschungsteam auf Github ein kleineres Modell zur Verfügung gestellt, mitsamt dem für das Sampling benötigten Code. Mit dem Modell lassen sich sehr einfach Samples auf Stichwort oder -satz erzeugen. Das System bekommt eine mehr oder weniger kurze Vorgabe und ergänzt dann den folgenden Text. Nehmen wir etwa einen klassischen Einstieg: “Es war einmal”

Das System ergänzt allerdings nicht das gewünschte Märchen, sondern beste Fußnotenpoesie!

======================================== SAMPLE 1 ========================================
 wenn kaufen.

[Translation] (German)

[1] The Kirches

[2] The Omsenschaftswagen: Hällen.

[3] Answerk des Kirches (1891)

[4] Das Reich des Kirches: The Works of J. Kirches.

[5] "The Kirches"

[6] "Der Kirches und der Kirches und der Kirches" (1897) (orig. 1933)

[7] "Sonder und wirtschaftliche Kirches".

[8] Ancilla Kirches (1928)

[9] Hans-Hilbert Kirches (1885)

[10] "Anselung und Wien" (1858)

[11] "Anselung und Vater-versätten" (1858)

[12] "Leptzeugung des Kirches und der Kirches und der Kirches und der Kirches der Leptzeugung an die Wurmsammer," in Dichter, Die Leiden und die Staatenzeugung und Leuten und Gesellschaft für aus dem Kirchen anden die Hösschen des Kirches (1887).

[13] Deutsch: Zur Kirchen und Hällen.

[14] The Kirchen and Kirchen in Geographical Analysis: Inventions of American Geographers.

[15] Anselung, Der Kirchen.

[16] Das Reich, Kirchen und der Kirchen.

[17] The Geographie des Kirches de das Geographie, Kirchen (1871)

[18] Anselung und Wien, Der Kirchen und der Kirchen.

[19] "Dienstliche Kirche zu Kirchen" (1900)

[20] Wiesen zu, "Dienstliche Kirche zu Kirchenz" de Geschichte.

[21] "Anselung und Wien" in Wiesen zu kriem.

[22] The Kirchen

Das Trainingskorpus enthält also deutschen Text oder deutsche Texte, Hauptgegenstand sind aber offenbar Kirchen, und das wichtigste Format scheint die Fußnote zu sein. Die Abschnitte wirken so, als wären sie zum Teil aus bibliografischen Angaben erzeugt worden.

Deutlich sind einige Texteigenschaften, die sich auch bei vielen anderen Modellen finden: die Wiederholung über das gesamte Sample (hier das Wort Kirche oder das Wort Anselung), die Wiederholung im Satz, hier die “Leptzeugung des Kirches und der Kirches und der Kirches und der Kirches der Leptzeugung an die Wurmsammer” (wirklich ein wunderbarer Titel), merkwürdige Wörter, die an korrekte Wortformen erinnern, weil gewisse Buchstaben- oder Silbenzusammenhänge vom System schon gelernt sind, die aber in dieser Form nicht existieren, z.B. “Hällen”; schließlich falsche Wortverbindungen wie “de das Geographie” und der Switch von deutsch zu englisch und wieder zurück (Abschnitt 14).

Das zweite Sample liefert Fließtext, allerdings in sehr schlechter Qualität, was sicher daran liegt, dass im Trainingskorpus nur wenig deutschsprachiger Text zu finden ist.

Model prompt >>> Es war einmal

SAMPLE:

des Zug in Fängerst und den Statt für die Entwicklung. In Gegende kann gegeben ist sie kann sich gelegen sich den Eglunden und überwach- und kann zu sein gegen ausgegeschichkeit: Häufig zum die Gesetzungen währendelleiden, das ist sich gegen erstliche Gegen. Zu überwach nicht angepgen zum zweite Eglunden oder Gegen zu wurde, das ist sich gegen die einfach, dann die Ersten eines Erfolgungs sich und die Tufte wird. In Ergesichtigt vorhönnen und die Gegen und der Buch zwischen Beispalten (Werkstatten): In this he gives the order of the day, on a given day, where the sun rises to the level of the sky and in other words:

Bügliche Entwicklung sich, daht haben, erde nicht eine Gegen die Gesetzungen verächte Geget zu,

Wiltige Zu den eine Zeitgebung das den Beispalten und zuen seine Zubei wird.

Jürgen-Schule vorhönnen eine Gegeln die Zeitgebung zu und sehen, zu er dessen Wirtschaft überwagen öffentlich gegen aus Gegündige von dem Wirtschaft gegen in Vereinigung der Kulturgeschicht von Gedischum, der Nüchterhäuser die Bekrieg die Kulturgeschicht von Gesetzungen sich der einmal des Fachten ausgegeschichselt durch der überwartigung, sehen in eine Vereinigung verächte Gegen. Dazu öffentlich wie nach dem Gedischum durch Verächte gegen auszuget z

Der Text entwickelt kaum semantischen Zusammenhang und enthält viele grammatische und morphologische Fehler. Andere Prompts (Texteinstiege) liefern keine besseren Ergebnisse, immer wieder wechselt das System sehr schnell ins Englische.

Die Ergebnisse mit englischen Prompts sind besser, es finden sich aber die oben genannten Eigenschaften, die die Ergebnisse solcher Modelle auszeichnen, auch hier recht deutlich. Lustig ists allemal, und es finden sich wunderbare selbstreflexive Perlen:

Model prompt >>> Once upon a time,

SAMPLE:

 I had been reading a great number of books and, having been there in a very public way, I found that they were just not on time, that it was a bad idea for our government to have a policy that did not adequately protect us.