Zahlen zählen


Wenn von der Poetik eines Texts die Rede ist, dann geht es in der Regel um Wörter und Sätze, um rhetorische Stilmittel, stilistische Besonderheiten, Figurenstrukturen, narrative Eigenschaften usw. Für einen Aufsatz in einem Sammelband, der sich mit der Poetik von Karl Marx: Das Kapital beschäftigt, habe ich mich gefragt, welche poetischen Funktionen eigentlich die ganzen Zahlen übernehmen, die im Kapital überall auftauchen. Der Text enthält eine ganze Reihe von Tabellen, Zahlenreihungen, Vergleichen und Gleichungen, die auf ganz unterschiedliche Weise in den Text eingebettet sind und auf ganz unterschiedliche Weise sowohl das Argument als auch die Erzählung teils stützen, teils konstituieren. In meinem Aufsatz Zahlen erzählen geht es in erster Linie um die poetische Funktion der Zahlen im Text. Außerdem habe ich mich gefragt, an welche Form von Statistik Das Kapital anschließt, das heißt welches Verhältnis der Text zur Staatenkunde und zur moderneren Bevölkerungsstatistik entwickelt. In diesem Blogeintrag soll es um die zugehörige Text- und Zahlenverarbeitung gehen und um die Probleme, die dabei aufgetreten sind. Die Probleme haben vor allem mit dem editionsphilologischen Umgang mit tabellarisch erfassten und abgedruckten Zahlen in den verschiedenen digitalen Fassungen des Texts zu tun, und ein kleines bisschen mit meiner Nachlässigkeit, die entsprechende Dokumentation nicht vor der Verarbeitung genau auf diesen Punkt hin zu prüfen. Ich habe gelernt: Ein Volltext muss nicht alle Zeichen enthalten.

Um die Funktion von Zahlen im Text zu erforschen, habe ich gelesen – und gezählt. Welche ist die größte Zahl im Text? Welche die kleinste? Welche Teile des Texts enthalten viele Zahlen, welche nur wenige? Die Auswertungen, die ich vornehmen wollte, waren nicht besonders komplex. Schwieriger war, wie sich leider erst spät herausstellen sollte, die Zusammenstellung des Texts für die Analyse.

Das Deutsche Textarchiv (DTA) ist eine Textsammlung mit höchst zuverlässig transkribierten und codierten Texten. Weil das DTA großen Wert auf eine möglichst detaillierte und genaue Auszeichnung der Texte legt, bin ich davon ausgegangen, dass jedes Textzeichen des Originals (bzw. des Faksimiles) auch transkribiert ist. Also suchte ich mir Das Kapital, Erster Band (1867) von Karl Marx heraus, lud die Textdaten (Plaintext-Export) auf meinen Rechner und begann mit der explorativen Analyse. Ich extrahierte alle Zahlen und sortierte sie in aufsteigender Reihenfolge. Dann wurde für jede Seite das Verhältnis von Zahlen zur Zeichenanzahl berechnet, um eine seitenbasierte Verlaufskurve zu erstellen. Denkbar wäre auch gewesen, die Textabschnitte inhaltlich einzuteilen. Das Ziel, einen Eindruck von der Verteilung zu erhalten, war mit der materiell definierten Einteilung aber einfacher zu erreichen, weil damit die Frage, welche Strukturebene für die entscheidende Einteilung gewählt werden sollte, entfiel. Die seitenorientierte Verlaufskurve diente dann als Anhaltspunkt, um auffällige Bereiche im Text auch abschnittsweise zu prüfen.

Zahlenverhältnisse in Karl Marx: Das Kapital, Erster Band (1867)

Im Verlauf mehrerer Wechsel von Datenverarbeitung zur Lektüre von Textstellen und zurück stieß ich irgendwann auf eine Zahl, die im transkribierten Text fehlte. Bei genauerer Prüfung wurde klar, dass Zahlen aus mehreren Tabellen in der DTA-Textfassung fehlten. Aus einem einfachen Grund: Sie sind in der Textfassung des DTA nicht enthalten. Das ist kein Versehen, sondern folgt den Transkriptionsrichtlinien des DTA-Basisformats: Tabellen werden nicht transkribiert.

Übersichten in Tabellenform, die keinen oder nur wenig reinen Text enthalten (z.B. vornehmlich aus Zahlen und Sonderzeichen bestehen), werden nicht erfasst. Statt dessen wird durch eine leere Tabelle auf die jeweilige Übersicht hingewiesen:

<table><row><cell/></row></table>

Quelle: http://www.deutschestextarchiv.de/doku/basisformat/tabAllg.html (archivierte Fassung)

Das Kapital, Erster Band von Karl Marx in der Ausgabe von 1867 enthält mehrere Tabellen, die im Sinne dieser Definition “keinen oder nur wenig reinen Text enthalten”, weil sie “vornehmlich aus Zahlen […] bestehen”. Die fehlenden Tabellen sind in den Markup-Exportformaten XML und HTML in der zitierten Weise markiert, im Plaintext-Export fehlt diese Markierung, weil kein Markup mehr enthalten ist und bei der Konvertierung kein entsprechender Platzhalter eingefügt wird. Bei der Verarbeitung der Plaintext-Daten ist mir das erst anhand der eigentlich nur als Spielerei gedachten Liste mit den aufsteigend sortierten Zahlen aufgefallen. Hier fehlten offensichtlich Zahlen, die mir im Text aufgefallen waren, etwa besonders hohe Zahlen.

Weil das Kapital ein kanonischer und wichtiger Text ist gibt es im Netz eine ganze Reihe von Textfassungen. Nur wenige sind aus philologischer Sicht zuverlässig. Neben der DTA-Fassung (wegen der fehlenden Zahlen nur bedingt zuverlässig) zählt dazu insbesondere die digitale Fassung der Marx-Engels-Gesamtausgabe (MEGA). Sie enthält alle Zeichen. Allerdings ist der Volltext nur im Browser lesbar und kann aus der Webanwendung heraus nicht einfach heruntergeladen werden. Beim Lesen des Seitenquelltexts findet sich zwar eine kleine, feine XML-Datei, in der die deep links zu den XML-Dateien aller bereitgestellten Volltexte abgelegt sind. Die XML-Daten und Volltexte sind aber nicht offiziell über die Webanwendung verfügbar und es finden sich auch keine Nutzungsbedingungen zu den angereicherten XML-Daten, weshalb ein Download via deep link zwar möglich ist, die Nutzung und Verarbeitung für eigene Publikationen aber, je nach Output und Veröffentlichungsziel, abgesprochen werden sollte. In meinem Fall gewährten das MEGA-Projekt die Erlaubnis zur Nutzung der Daten (Danke!), was mich sehr gefreut hat. Allerdings dauerte diese Absprache länger als ich für die Analyse und Vorbereitung des Vortrags Zeit hatte, weshalb ich den vollständigen Text auf andere Weise konstituierte, obwohl mir die MEGA-XML-Daten schon vorlagen.

Eine weitere umfangreiche Sammlung von Marx-Texten findet sich auf der Seite http://mlwerke.de. Der digitalisierte Text basiert auf Band 23 der Marx-Engels-Werke (MEW), der Gesamtausgabe des Dietz-Verlags (Berlin/DDR), das sind die klassischen blauen Bände, die vielerorts zu finden und die nach wie vor auch brauchbar sind. Neben einer umfangreichen Auswahl digitalisierter Texte der MEW finden sich auf der Seite weitere digitalisierte Texte von einer ganzen Reihe weiterer “Stimmen der proletarischen Revolution”. Die Selbstbeschreibung macht deutlich, dass die Wiedergabe der Texte nicht nur mit einem archivarischen, sondern auch mit einem starken politischen Anspruch verknüpft ist. Das mag ein Grund dafür sein, dass auf der Seite selbst die Genese der digitalen Texte nicht dokumentiert ist. Nichtsdestotrotz weisen die digitalisierten Texte des Bands 23 eine hohen Grad an Genauigkeit auf. Anders als bei den herausgezogenen Texten im DTA wurden hier auch sämtliche Tabellen transkribiert und sind in den HTML-Texten verfügbar.

Weil ich die XML-Daten der MEGA-Ausgabe erst durch aktive Suche im Quelltext und durch Nachvollzug der serverseitigen Datenstruktur gefunden habe und herunterladen konnte, obwohl ein solcher Download in der Webanwendung gar nicht vorgesehen ist, wollte ich diese Daten nicht für die Analyse verwenden. Denn die Analyse soll ja nachvollziehbar sein, und das geht nur, wenn auch die analysierten Daten verfügbar sind oder verfügbar gemacht werden können. Unter Berücksichtigung meiner Forschungsfrage (Zahlen in Das Kapital (Erster Band)) stellt sich die Verfügbarkeit und Zuverlässigkeit der nötigen Textdaten also folgendermaßen dar:

  1. MEGA digital
    • historisch-kritische digitale Ausgabe der Marx-Engels-Gesamtausgabe (MEGA)
    • gut dokumentiert
    • XML-Format, Textextraktion unproblematisch
    • XML-Daten nicht öffentlich zugänglich bzw. keine verbindliche Nutzungsregelung
    • vollständige Daten
  2. Deutsches Textarchiv
    • standardisierte Transkriptionsverfahren und Qualitätsmanagement
    • gut dokumentiert
    • verschiedene Formate, auch Textformat (keine weitere Extraktion nötig)
    • Daten öffentlich zugänglich, institutionell gesichert
    • unvollständige Daten (mehrere Tabellen sind nicht transkribiert und fehlen im bereitgestellten Textformat)
  3. MLWerke
    • Transkription der Ausgabe Marx-Engels-Werke (MEW)
    • Transkriptionsrichtlinien nicht dokumentiert
    • HTML-Format, Schema nicht dokumentiert, Textextraktion pozenziell fehlerbehaftet
    • Daten öffentlich zugänglich, betrieben von einer Privatperson
    • Vollständigkeit der Daten nicht einschätzbar

Wegen der unklaren Verwendungslage der XML-Daten von MEGA-digital wurde die DTA-Transkription als Grundlage gesetzt und die fehlenden Tabellen aus der Transkription von MLWerde ergänzt. Es handelt sich dabei um eine im Vergleich mit dem Gesamttext geringe Anzahl von Tabellen. Die Platzierung der Tabellen erfolgte dort, wo sie in der DTA-Fassung als Lücken erscheinen, jeweils mit einem manuellen Abgleich mit dem Faksimile (ebenfalls DTA). Besser wäre gewesen, mit den MEGA-Daten zu arbeiten, zumal die Kolleginnen und Kollegen mir - leider erst nachdem der Text hergestellt und die Analyse abgeschlossen war - mitgeteilt haben, dass ich die Daten gerne verwenden darf. Auch dann stellt sich noch die Frage der Referenzierung, weil die XML-Daten nicht direkt verfügbar sind und deshalb auch nicht direkt referenziert werden können. Auf die Nutzungserlaubnis komme ich dann für die nächste Analyse von Marx-Texten trotzdem gerne zurück.