Suchen
  • Alle Suchergebnisse
  • Bücher
  • User
  • Gruppen
  • FAQs

Charakteristika quantitativer Textanalyse digitaler Bücher

Quantitative Linguistik an EPUBs Von:
User: M.d.S.
Charakteristika quantitativer Textanalyse digitaler Bücher

Im Rahmen der quantitativen Linguistik werden Werke statistisch untersucht, aus statistischen Verteilungen werden Zahlenwerte zu einem Werk berechnet, welche als Charakteristika das jeweilige Werk repräsentieren können sollen.

Charakteristika von Werken, welche in digitaler Form als EPUBs oder XHTML-Dokumente frei verfügbar sind, werden in dieser Arbeit für einen deutschsprachigen und einen englischsprachigen Korpus sowie darin befindliche Sammlungen oder Einzelwerke ermittelt und hinsichtlich ihrer Relevanz und Aussagekraft untersucht.

Der deutsche Korpus umfaßt mehr als 93 Millionen Wörter, der englische mehr als 115 Millionen Wörter.
Die Korpora setzen sich aus den gesammelten Werken bekannterer und weniger bekannter Autoren zusammen, hinzu kommen weitere Sammlungen und Einzelwerke aus unterschiedlichen Quellen.

Die ermittelten Wort-Rangfolge-Häufigkeitsverteilungen sowie Wortypen-Häufigkeitsverteilungen werden ferner verwendet, um simulierte Werke definierter Länge mit vorgegebenem Vokabularium zu erzeugen und zu analysieren, um die Abhängigkeit der Charakteristika vom verwendeten Vokabularium sowie der Werklänge nachzuvollziehen, Charakteristika besser in ihrer Relevanz und Aussagekraft einzuordnen.

Ferner werden weitere charakteristische Textstrukturen ermittelt, etwa Verteilungen und deren statistische Momente zu Wortlängen, Satzlängen, Häufigkeit von Kommata pro Satz, Absatzlängen, Kapitellängen, verwendete Elemente zur semantischen Textauszeichnung.
Entsprechend werden für die beiden Korpora ebenso verwendete Elemente zur semantischen Textauszeichnung und Zeichen-Rangfolge-Häufigkeitsverteilungen ermittelt, sowie die häufigsten verwendeten Zeichen und Wörter aufgelistet.

 

Einige Charakteristika dieses Buches:

Wortanzahl (Token, Wörter): 45132

Wortumfang (Worttypen, verschiedene Wörter): 13314

Variabilität (Type-Token-Verhältnis): 0.2950

Guiraud-Index: 62.67

Informationsgehalt: 11.37 Shannon

173 Graphiken

90 Tabellen

 

Anmerkung zur Leseprobe: Wie bereits an der von BookRix angegebenen abweichenden Wortanzahl zu erahnen ist, entspricht die Leseprobe nicht dem Anfang des EPUBs. Weil BookRix bei der Leseprobe nicht alle Text-Inhalte vom Anfang des Buches und keine Graphiken berücksichtigt, semantisch relevante Strukturen ignoriert, ergibt die Lesepobe nicht so viel Sinn, von daher gleich das EPUB komplett herunterladen und dort einsteigen.


Von diesem Buch kannst Du online nur eine Leseprobe lesen, da es als ePub hochgeladen wurde. Du kannst das vollständige Buch aber downloaden.

Beiträge und Kommentare
Wichtiger Beitrag
dschauli

Großes Kompliment!
Auf den ersten Blick und Riecher wittert man eine imposante Fleißarbeit.
Sodann will man das auch gleich mal in Bookrixscher Manier favorisieren,
damit diese Leseprobe nicht aus dem Blickfeld gerät.
Schließlich ist er ein statistik-affiner Typ,
Der Lord (DD / w trybie podziwu statystycznego)

1 Kommentar
M.d.S.

Solltest gleich das EPUB laden, denn BookRix streicht in der Leseprobe die Graphiken sowie auch relevante Abschnitte mitten aus dem Inhalt, wenn deren Skript damit technisch überfordert ist ;-)

Fleißarbeit - ja durchaus, gut, ein Teil war nur das Sammeln von ziemlich vielen... mehr anzeigen

Wichtiger Beitrag
Jimi Wunderlich

Huch! Dein Buch kommt - für mich - zu spät. Hatte mich ebenfalls mal mit solchen (digitalen) Analysen beschäftigt, musste jedoch merken: Eine solche gibt keine Auskunft zum Inhalt, nicht zum Stil und - vor allem - nicht zum künstlerischen Wert.
Habe es deshalb sein gelassen und verlasse mich inzwischen wieder auf mein 'Bauchgefühl'. Kunst, auch Literatur, kann nicht digital vermessen werden. Da spielt die subjektive Erfahrung... mehr anzeigen

3 Kommentare
M.d.S.

Damit beschäftigt sich das Buch ja, wie charakteristisch die Charakteristika wirklich sind und wenn wofür.
Also meiner Meinung nach, sind einzelne Zahlen jedenfalls nicht charakteristisch.
Man kann allenfalls mit dem Durchschnitt eines großen Korpus vergleichen, hat allerdings... mehr anzeigen

Jimi Wunderlich

Das ist es, was ich sagen wollte: Man muss etwas zu sagen haben, sonst ist es keine Literatur. Einfach nur schreiben, um des Schreibens willen, ist Zeitverschwendung. Das kann man getrost dem Computer überlassen, in dieser Zeit könnte man sinnvolleres tun...

Mit dem zu spät... mehr anzeigen

M.d.S.

Das war ein weiteres Anliegen, prüfen, ob die Annahme stimmt, daß einzelne statistische Zahlen nicht so viel aussagen über ein Werk oder eine Sammlung.

Wenn man vergleichbare Dinge vergleicht (verschiedene Ausgaben eines Werkes, Übersetzungen), können sich schon deutliche... mehr anzeigen

Wichtiger Beitrag
Niklas

Sehr speziell. Ich habe mich selbst schon mit wissenschaftlichen Büchern beschäftig. Hier aber muss ich passen. Allerdings habe ich dadurch einen Blick in dein sonstiges Schaffen geworfen und muss sagen, dass du einen echt interessanten literarischen Ansatz hast (Der Atelierbesuch zum Beispiel) Falls ich das alles richtig verstanden habe ...

1 Kommentar
M.d.S.

Ja, ich verfolge unterschiedliche literarische Ansätze.

Dies hier ist nun das bislang wissenschaftlichste hier auf BookRix, wobei ich Linguistik oder dergleichen nicht einmal studiert habe.
Wie im Buch erläutert, haben wir statistische Daten gebraucht, um die Bücher zur Abstrakten... mehr anzeigen

Um eine optimale Funktionsweise zu gewährleisten, verwendet unsere Website Cookies. Durch die Nutzung der Website stimmst Du der Verwendung von Cookies zu. Mehr Infos
OK
Top of page
Kein Miniaturbild Entfernen Bitte wähle einen Grund aus Bitte gib die Stelle im Buch an. de de_DE