Suchen
  • Alle Suchergebnisse
  • Bücher
  • User
  • Gruppen
  • FAQs

Charakteristika quantitativer Textanalyse digitaler Bücher

Quantitative Linguistik an EPUBs Von:
User: M.d.S.
Charakteristika quantitativer Textanalyse digitaler Bücher

Im Rahmen der quantitativen Linguistik werden Werke statistisch untersucht, aus statistischen Verteilungen werden Zahlenwerte zu einem Werk berechnet, welche als Charakteristika das jeweilige Werk repräsentieren können sollen.

Charakteristika von Werken, welche in digitaler Form als EPUBs oder XHTML-Dokumente frei verfügbar sind, werden in dieser Arbeit für einen deutschsprachigen und einen englischsprachigen Korpus sowie darin befindliche Sammlungen oder Einzelwerke ermittelt und hinsichtlich ihrer Relevanz und Aussagekraft untersucht.

Der deutsche Korpus umfaßt mehr als 101 Millionen Wörter, der englische mehr als 115 Millionen Wörter. 
Die Korpora setzen sich aus den gesammelten Werken bekannterer und weniger bekannter Autoren zusammen, hinzu kommen weitere Sammlungen und Einzelwerke aus unterschiedlichen Quellen.

Die ermittelten Wort-Rangfolge-Häufigkeitsverteilungen sowie Worttypen-Häufigkeitsverteilungen werden ferner verwendet, um simulierte Werke definierter Länge mit vorgegebenem Vokabularium zu erzeugen und zu analysieren, um die Abhängigkeit der Charakteristika vom verwendeten Vokabularium sowie der Werklänge nachzuvollziehen, Charakteristika besser in ihrer Relevanz und Aussagekraft einzuordnen.

Ferner werden weitere charakteristische Textstrukturen ermittelt, etwa Verteilungen und deren statistische Momente zu Wortlängen, Satzlängen, Häufigkeit von Kommata pro Satz, Absatzlängen, Kapitellängen, verwendete Elemente zur semantischen Textauszeichnung. 
Entsprechend werden für die beiden Korpora ebenso verwendete Elemente zur semantischen Textauszeichnung und Zeichen-Rangfolge-Häufigkeitsverteilungen ermittelt, sowie die häufigsten verwendeten Zeichen und Wörter aufgelistet.

 

Einige Charakteristika dieses Buches:

Zeichenanzahl: 342737

Wortanzahl (Token, Wörter): 47354

Wortumfang (Worttypen, verschiedene Wörter): 14031

Variabilität (Type-Token-Verhältnis): 0.296

Guiraud-Index: 64.5

Informationsgehalt: 11.42 Shannon

Satzanzahl: 12128

186 Graphiken

134 Tabellen

 

1. Ausgabe: 2020-02-01

(Kleinere Ergänzungen, Korrekturen: 2020-07-01)

2. Ausgabe: 2021-02-01

 

Anmerkung zur Leseprobe: Wie bereits an der von BookRix angegebenen abweichenden Wortanzahl zu erahnen ist, entspricht die Leseprobe nicht dem Anfang des EPUBs. Weil BookRix bei der Leseprobe nicht alle Text-Inhalte vom Anfang des Buches und keine Graphiken berücksichtigt, semantisch relevante Strukturen ignoriert, ergibt die Lesepobe nicht so viel Sinn, von daher gleich das EPUB komplett herunterladen und dort einsteigen.

 


Von diesem Buch kannst Du online nur eine Leseprobe lesen, da es als ePub hochgeladen wurde. Du kannst das vollständige Buch aber downloaden.

Beiträge und Kommentare
Wichtiger Beitrag
koreapeitsche

Das nennt sich doch auch Korpuslinguistik, oder? ;)
Ist das Teil einer Hausarbeit oder Abschlussarbeit?

4 Kommentare
koreapeitsche

ePub kann bei mir nicht geöffnet werden.

M.d.S.

Den Kommentar habe ich ja glatt übersehen.
Korpuslinguistik ist da als Wort wohl ebenfalls im Umlauf.
Wir untersuchen mehrere Korpora, also primär deutsche EPUBs, englische, einen speziellen Korpus, welcher hier ebenfalls als Buch verfügbar ist: Korpus CusyA (aufgrund technischer... mehr anzeigen

koreapeitsche

Jetzt hat es geklappt mit dem Öffnen der ePub-Version.
;)

Ein anderer, neuerer Begriff für Korpuslinguistik ist "quantitative Inhaltsanalyse".
Welche Software verwendest Du denn? Ich habe damals mit Wordsmith gearbeitet.

M.d.S.

Eigenartig, bekomme irgendwie bei den Nachrichten keine Mitteilung, daß hier ein neuer Eintrag steht.
Daher doch immer wieder Verzögerungen.

Für die Analyse verwenden wir eigene PHP-Skripte, welche im Laufe der Zeit immer mal wieder etwas verbessert wurden, weswegen wir für die... mehr anzeigen

Wichtiger Beitrag
dschauli

Großes Kompliment!
Auf den ersten Blick und Riecher wittert man eine imposante Fleißarbeit.
Sodann will man das auch gleich mal in Bookrixscher Manier favorisieren,
damit diese Leseprobe nicht aus dem Blickfeld gerät.
Schließlich ist er ein statistik-affiner Typ,
Der Lord (DD / w trybie podziwu statystycznego)

1 Kommentar
M.d.S.

Solltest gleich das EPUB laden, denn BookRix streicht in der Leseprobe die Graphiken sowie auch relevante Abschnitte mitten aus dem Inhalt, wenn deren Skript damit technisch überfordert ist ;-)

Fleißarbeit - ja durchaus, gut, ein Teil war nur das Sammeln von ziemlich vielen... mehr anzeigen

Wichtiger Beitrag
Jimi Wunderlich

Huch! Dein Buch kommt - für mich - zu spät. Hatte mich ebenfalls mal mit solchen (digitalen) Analysen beschäftigt, musste jedoch merken: Eine solche gibt keine Auskunft zum Inhalt, nicht zum Stil und - vor allem - nicht zum künstlerischen Wert.
Habe es deshalb sein gelassen und verlasse mich inzwischen wieder auf mein 'Bauchgefühl'. Kunst, auch Literatur, kann nicht digital vermessen werden. Da spielt die subjektive Erfahrung... mehr anzeigen

3 Kommentare
M.d.S.

Damit beschäftigt sich das Buch ja, wie charakteristisch die Charakteristika wirklich sind und wenn wofür.
Also meiner Meinung nach, sind einzelne Zahlen jedenfalls nicht charakteristisch.
Man kann allenfalls mit dem Durchschnitt eines großen Korpus vergleichen, hat allerdings... mehr anzeigen

Jimi Wunderlich

Das ist es, was ich sagen wollte: Man muss etwas zu sagen haben, sonst ist es keine Literatur. Einfach nur schreiben, um des Schreibens willen, ist Zeitverschwendung. Das kann man getrost dem Computer überlassen, in dieser Zeit könnte man sinnvolleres tun...

Mit dem zu spät... mehr anzeigen

M.d.S.

Das war ein weiteres Anliegen, prüfen, ob die Annahme stimmt, daß einzelne statistische Zahlen nicht so viel aussagen über ein Werk oder eine Sammlung.

Wenn man vergleichbare Dinge vergleicht (verschiedene Ausgaben eines Werkes, Übersetzungen), können sich schon deutliche... mehr anzeigen

Wichtiger Beitrag
Niklas

Sehr speziell. Ich habe mich selbst schon mit wissenschaftlichen Büchern beschäftig. Hier aber muss ich passen. Allerdings habe ich dadurch einen Blick in dein sonstiges Schaffen geworfen und muss sagen, dass du einen echt interessanten literarischen Ansatz hast (Der Atelierbesuch zum Beispiel) Falls ich das alles richtig verstanden habe ...

1 Kommentar
M.d.S.

Ja, ich verfolge unterschiedliche literarische Ansätze.

Dies hier ist nun das bislang wissenschaftlichste hier auf BookRix, wobei ich Linguistik oder dergleichen nicht einmal studiert habe.
Wie im Buch erläutert, haben wir statistische Daten gebraucht, um die Bücher zur Abstrakten... mehr anzeigen

Um eine optimale Funktionsweise zu gewährleisten, verwendet unsere Website Cookies. Durch die Nutzung der Website stimmst Du der Verwendung von Cookies zu. Mehr Infos
OK
Top of page
Kein Miniaturbild Entfernen Bitte wähle einen Grund aus Bitte gib die Stelle im Buch an. de de_DE