Charakteristika quantitativer Textanalyse digitaler Bücher

Quantitative Linguistik an EPUBs Von:
User: M.d.S.
Charakteristika quantitativer Textanalyse digitaler Bücher

Im Rahmen der quantitativen Linguistik werden Werke statistisch untersucht, aus statistischen Verteilungen werden Zahlenwerte zu einem Werk berechnet, welche als Charakteristika das jeweilige Werk repräsentieren können sollen.

Charakteristika von Werken, welche in digitaler Form als EPUBs oder XHTML-Dokumente frei verfügbar sind, werden in dieser Arbeit für einen deutschsprachigen und einen englischsprachigen Korpus sowie darin befindliche Sammlungen oder Einzelwerke ermittelt und hinsichtlich ihrer Relevanz und Aussagekraft untersucht.

Der deutsche Korpus umfaßt mehr als 101 Millionen Wörter, der englische mehr als 115 Millionen Wörter. 
Die Korpora setzen sich aus den gesammelten Werken bekannterer und weniger bekannter Autoren zusammen, hinzu kommen weitere Sammlungen und Einzelwerke aus unterschiedlichen Quellen.

Die ermittelten Wort-Rangfolge-Häufigkeitsverteilungen sowie Worttypen-Häufigkeitsverteilungen werden ferner verwendet, um simulierte Werke definierter Länge mit vorgegebenem Vokabularium zu erzeugen und zu analysieren, um die Abhängigkeit der Charakteristika vom verwendeten Vokabularium sowie der Werklänge nachzuvollziehen, Charakteristika besser in ihrer Relevanz und Aussagekraft einzuordnen.

Ferner werden weitere charakteristische Textstrukturen ermittelt, etwa Verteilungen und deren statistische Momente zu Wortlängen, Satzlängen, Häufigkeit von Kommata pro Satz, Absatzlängen, Kapitellängen, verwendete Elemente zur semantischen Textauszeichnung. 
Entsprechend werden für die beiden Korpora ebenso verwendete Elemente zur semantischen Textauszeichnung und Zeichen-Rangfolge-Häufigkeitsverteilungen ermittelt, sowie die häufigsten verwendeten Zeichen und Wörter aufgelistet.

 

Einige Charakteristika dieses Buches:

Zeichenanzahl: 342737

Wortanzahl (Token, Wörter): 47354

Wortumfang (Worttypen, verschiedene Wörter): 14031

Variabilität (Type-Token-Verhältnis): 0.296

Guiraud-Index: 64.5

Informationsgehalt: 11.42 Shannon

Satzanzahl: 12128

186 Graphiken

134 Tabellen

 

1. Ausgabe: 2020-02-01

(Kleinere Ergänzungen, Korrekturen: 2020-07-01)

2. Ausgabe: 2021-02-01

 

Anmerkung zur Leseprobe: Wie bereits an der von BookRix angegebenen abweichenden Wortanzahl zu erahnen ist, entspricht die Leseprobe nicht dem Anfang des EPUBs. Weil BookRix bei der Leseprobe nicht alle Text-Inhalte vom Anfang des Buches und keine Graphiken berücksichtigt, semantisch relevante Strukturen ignoriert, ergibt die Lesepobe nicht so viel Sinn, von daher gleich das EPUB komplett herunterladen und dort einsteigen.

 


Von diesem Buch kannst Du online nur eine Leseprobe lesen, da es als ePub hochgeladen wurde. Du kannst das vollständige Buch aber downloaden.

Beiträge und Kommentare
Wichtiger Beitrag
Gelöschter User

Vielleicht solltest Du Dich erst einmal mit Literatur befassen, bevor Du sie "zerlegst" bzw. "künstlich" generieren willst. Man sieht an deinem Text, dass es Dir diesbezüglich bereits an Grundwissen fehlt. Die ganz einfache Frage, die sich hier möglicherweise auch weniger hellen Köpfen aufdrängt, ist doch die: Wie will man ohne eine selbsttätig kreativ denkende Maschine beispielsweise einen Text generieren, der von Goethe... mehr anzeigen

M.d.S.

Gut, Meinungsfreiheit, Kunstfreiheit, Religionsfreiheit - damit geht allerhand.

Meine Kenntnis zur psychischen Peinigung: Es ist förderlich, die fauligen Wunden des Opfers zu kennen, um darin vergnüglich prokeln zu können.
Wahlloses Stochern hingegen hat eine geringe Chance, zur... mehr anzeigen

Gelöschter User

Nein, Religion ist Art. 4 GG. "Schatzwörter"? Du meinst Wörter der Selbstentlarvung? Quälen ist mir völlig fremd, auf "Deinem Gebiet" bin ich Neuling. Aber ich kenne die Motivation 'Rache'. Weißt Du, unter Männern ist auch das Kokolores. Man trinkt einfach hinterher Bier und... mehr anzeigen

M.d.S.

Schatzwörter - hmmm, vielfältig, in dem Zusammenhang sicher Punkte, an denen man zu treffen ist. Rache kann auch dazugehören, wenn man drauf abfährt.

Die Merkmale von Menschen unterliegen statistisch einer breiten Verteilung, von daher auch nicht so eindeutig einem Geschlecht zuzuordnen.

Wichtiger Beitrag
Darkana

Tatsächlich bildet die Bookrix-Darstellung die Komplexität des Buches nur unvollständig ab; man verpaßt viel, wenn man den Download nicht durchführt.
Ich finde schon den Umfang des Werks beachtlich. Das war sicher eine Menge Arbeit.

Im Vorwort steht ja, die ursprüngliche Motivation sei gewesen, Texte generieren zu lassen. Das ist später zugunsten der statistischen Analyse zurückgestellt worden. Angesichts der schieren... mehr anzeigen

5 Kommentare
M.d.S.

Die Bücher zur Abstrakten Literatur sind ja ebenfalls hier verfügbar, welche eben je nach Entstehungsdatum eigene Ansätze unterschiedlicher Komplexität verfolgen.

Klar hat das Genre Einfluß. Besonders wissenschaftliche Werke haben einen höheren Informationsgehalt auf Wortebene.
... mehr anzeigen

iactum

Fuer Wissenschaftler moegen auf solche Weise interessante Texte zu erzeugen sein, fuer Literaten sind sie todlangweilig wie eine KI-Komposition a la Bach. Wichtig sind solche Analysen nur, da sie das Kunstfremde an jeder Kunst beleuchten. Nicht alles taugt schon allein deshalb,... mehr anzeigen

iactum
Was ist Kunst und was nicht? von Theodor W. Adorno - Buch online lesen kostenlos - eBook Download https://www.bookrix.de/_ebook-theodor-w-adorno-was-ist-kunst-und-was-nicht/ Die bedeutendste Kunsttheorie der Neuzeit     "Kunst ist, wenn man unter Beifall in die Stube scheisst." ( B. Brecht)   Das letzte und leider Fragment gebliebene Werk des zu frueh verstorbenen Sozialphilosophen und Ideologiekritikers Theodor W. Adorno (1903-1969) erschien 1970, vor genau einem halben Jahrhundert, unter dem Titel "Ästhetische Theorie" : Eine Theorie der Kunst sollte selber ein Kunstwerk sein. Als Motto war ein Wort des Frühromantikers Friedrich Schlegel vorangestellt, wonach die meisten Kunstphilosophien entweder zu wenig Philosophie oder zu wenig Kunst enthalten. Wer sich die Volllektüre dieses anspruchsvollen und heute hochaktuellen Werkes sparen möchte, kann hier eine bequemere Kurzfassung lesen mit von mir besorgten Zitaten aus der Erstausgabe.   Auch Literaturproduzenten sollten ja gelegentlich über ihr Metier mal theoretisch nachdenken ... ..........................................................
M.d.S.

Die verwendeten Skripte sind ja keine KIs.
Das sind letztlich ziemlich einfache Skripte, welche Mathematik, Statistik verenden, um Abstrakte Literatur erzeugen.
Bei abstrakten Bildern kannst du ja auch nicht erwarten, ein Portrait eines Menschen oder eine Abbildung einer realen... mehr anzeigen

iactum

Abstrakte Literatur bzw. Malerei war in einer bestimmten historischen Situation mal bahnbrechend originell, heute ist sie zu Werbedesign verkommen (was sie vielleicht immer schon war). "Quantitative Linguistik" mag alles sein, aber vor allem literaturfremd, doch sie leistet ihr... mehr anzeigen

Wichtiger Beitrag
koreapeitsche

Das nennt sich doch auch Korpuslinguistik, oder? ;)
Ist das Teil einer Hausarbeit oder Abschlussarbeit?

4 Kommentare
koreapeitsche

ePub kann bei mir nicht geöffnet werden.

M.d.S.

Den Kommentar habe ich ja glatt übersehen.
Korpuslinguistik ist da als Wort wohl ebenfalls im Umlauf.
Wir untersuchen mehrere Korpora, also primär deutsche EPUBs, englische, einen speziellen Korpus, welcher hier ebenfalls als Buch verfügbar ist: Korpus CusyA (aufgrund technischer... mehr anzeigen

koreapeitsche

Jetzt hat es geklappt mit dem Öffnen der ePub-Version.
;)

Ein anderer, neuerer Begriff für Korpuslinguistik ist "quantitative Inhaltsanalyse".
Welche Software verwendest Du denn? Ich habe damals mit Wordsmith gearbeitet.

M.d.S.

Eigenartig, bekomme irgendwie bei den Nachrichten keine Mitteilung, daß hier ein neuer Eintrag steht.
Daher doch immer wieder Verzögerungen.

Für die Analyse verwenden wir eigene PHP-Skripte, welche im Laufe der Zeit immer mal wieder etwas verbessert wurden, weswegen wir für die... mehr anzeigen

Wichtiger Beitrag
Gelöschter User

Großes Kompliment!
Auf den ersten Blick und Riecher wittert man eine imposante Fleißarbeit.
Sodann will man das auch gleich mal in Bookrixscher Manier favorisieren,
damit diese Leseprobe nicht aus dem Blickfeld gerät.
Schließlich ist er ein statistik-affiner Typ,
Der Lord (DD / w trybie podziwu statystycznego)

1 Kommentar
M.d.S.

Solltest gleich das EPUB laden, denn BookRix streicht in der Leseprobe die Graphiken sowie auch relevante Abschnitte mitten aus dem Inhalt, wenn deren Skript damit technisch überfordert ist ;-)

Fleißarbeit - ja durchaus, gut, ein Teil war nur das Sammeln von ziemlich vielen... mehr anzeigen

Wichtiger Beitrag
Jimi Wunderlich

Huch! Dein Buch kommt - für mich - zu spät. Hatte mich ebenfalls mal mit solchen (digitalen) Analysen beschäftigt, musste jedoch merken: Eine solche gibt keine Auskunft zum Inhalt, nicht zum Stil und - vor allem - nicht zum künstlerischen Wert.
Habe es deshalb sein gelassen und verlasse mich inzwischen wieder auf mein 'Bauchgefühl'. Kunst, auch Literatur, kann nicht digital vermessen werden. Da spielt die subjektive Erfahrung... mehr anzeigen

3 Kommentare
M.d.S.

Damit beschäftigt sich das Buch ja, wie charakteristisch die Charakteristika wirklich sind und wenn wofür.
Also meiner Meinung nach, sind einzelne Zahlen jedenfalls nicht charakteristisch.
Man kann allenfalls mit dem Durchschnitt eines großen Korpus vergleichen, hat allerdings... mehr anzeigen

Jimi Wunderlich

Das ist es, was ich sagen wollte: Man muss etwas zu sagen haben, sonst ist es keine Literatur. Einfach nur schreiben, um des Schreibens willen, ist Zeitverschwendung. Das kann man getrost dem Computer überlassen, in dieser Zeit könnte man sinnvolleres tun...

Mit dem zu spät... mehr anzeigen

M.d.S.

Das war ein weiteres Anliegen, prüfen, ob die Annahme stimmt, daß einzelne statistische Zahlen nicht so viel aussagen über ein Werk oder eine Sammlung.

Wenn man vergleichbare Dinge vergleicht (verschiedene Ausgaben eines Werkes, Übersetzungen), können sich schon deutliche... mehr anzeigen

Wichtiger Beitrag
Niklas

Sehr speziell. Ich habe mich selbst schon mit wissenschaftlichen Büchern beschäftig. Hier aber muss ich passen. Allerdings habe ich dadurch einen Blick in dein sonstiges Schaffen geworfen und muss sagen, dass du einen echt interessanten literarischen Ansatz hast (Der Atelierbesuch zum Beispiel) Falls ich das alles richtig verstanden habe ...

1 Kommentar
M.d.S.

Ja, ich verfolge unterschiedliche literarische Ansätze.

Dies hier ist nun das bislang wissenschaftlichste hier auf BookRix, wobei ich Linguistik oder dergleichen nicht einmal studiert habe.
Wie im Buch erläutert, haben wir statistische Daten gebraucht, um die Bücher zur Abstrakten... mehr anzeigen

Um eine optimale Funktionsweise zu gewährleisten, verwendet unsere Website Cookies. Durch die Nutzung der Website stimmst Du der Verwendung von Cookies zu. Mehr Infos
OK
Top of page
Kein Miniaturbild Entfernen Bitte wähle einen Grund aus Bitte gib die Stelle im Buch an. de de_DE