[Neo] Textcorpora der Uni Leipzig

Karl Köckemann neo-nntp at freenet.de
So Nov 29 22:01:09 CET 2009


Am Sun, 29 Nov 2009 16:19:58 +0100
schrieb Dennis Heidsiek <HeidsiekB at aol.com>:

> Ich plädiere auch weiterhin dafür, einen Dump der deutschsprachigen 
> Wikipedia (natürlich ›dewikifiziert‹) auszuwerten.

Um daraus einen gut verwertbaren Textkörper zu bekommen,
vielleicht bedarf es da der Erfahrung eines Korupslinguisten sowie
einer Menge Rechenkapazität.
Den (vielleicht arg unterschätzt) hohen Aufwand des Strippens eines
Wikipedia-Dumps traue ich mir nicht zu, obschon die Idee mir gut
gefällt. 

> Auf diese Weise vermeidet man Schreibfehler, bekommt aber
> gleichzeitig ›echte‹ Texte zu einer Vielzahl von Themen.

Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie überall.
Auf lexikalischem Gebiet könnten Wikipedia-Inhalte nach entsprechend
aufwendigem Strippen als Textkörper ebenso ›echt‹ sein, wie die
Leipzig-Korpora auf ihrem Gebiet.
Sicher werden viele verschiedene Wörter erfasst werden können, jedoch
deren Häufigkeit kann aus aus Lexika erstellten Textkörpern nicht
ermittelt werden, da sie - der Natur eines Lexikons entsprechend -
Themen zusammenfassen und nicht repräsentieren, wie oft die aus Lexika
gewonnenen Wörter in der Praxis der Texte der jeweiligen Themengebiete
tatsächlich auftreten.
Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch
wird die Relevanz für den allgemeinen Gebrauch von daraus
gewonnenen Worthäufigkeiten extrem variieren.
Den Weg, mehrere nicht gigantische Textkörper aus vielen verschiedenen
Themengebieten heranzuziehen, halte ich für gut, allerdings nicht durch
Lexika, die nun einmal nicht ›echte‹ vollständige Texte ersetzen können.

Mit nettem Gruß
Karl






More information about the Diskussion mailing list