[Neo] Wikipedia-Textcorpora (was: Re: Textcorpora der Uni Leipzig)

Dennis Heidsiek HeidsiekB at aol.com
Mo Nov 30 13:15:35 CET 2009


Hallo allerseits,


Ulf Bro ſchrieb am 29.11.2009 16:49 Uhr:
> Eine sehr gute Idee. Sobald die Wortliste vorliegt, werde ich sie in 
> meinem Auswerteprogramm übernehmen. Versprochen.

Vielen Dank, aber ich habe nichts fest versprochen …

Karl Köckemann ſchrieb am 29.11.2009 22:01 Uhr:
> Den (vielleicht arg unterschätzt) hohen Aufwand des Strippens eines 
> Wikipedia-Dumps traue ich mir nicht zu, obschon die Idee mir gut gefällt.

Wenigstens den nötigen Aufwand kann man recht gut abschätzen: Gemäß der 
Wikipedia-Seite über Dumps¹ bräuchten wir wohl die Datei 
dewiki-articles.xml.bz2:

> This contains current versions of article content (Articles, 
> templates, image descriptions, and primary meta-pages), and is the 
> archive most mirror sites will probably want

Dummerweise kommt diese (bereits komprimierte!) Datei² auf stolze 1,6 
GB.Ich habe mir mal als Vergleichsmaßstab die plattdeusche Wikipedia 
heruntergeladen; hier kommt die entsprechende Datei³ auf ›nur‹ auf 
12,03 MB, und wächst entpackt auf 56,6 MB an (Faktor 4,705). Damit 
ergibt sich für den entpackten Schnapschuss der deutschen Wikipedia eine 
Größe von 7,5 GB. Dieser müsste komplett ausgelesen (und dabei die XML- 
wie Wiki-Syntax entfernt) werden; erst dann könnte man die 
{1,2,3}-Gramme auswerten. Isgesamt wäre das zwar eine ziemliche 
Rechenaufgabe für einen 08/15-PC, aber m. E. durchaus noch in Rahmen des 
Möglichen (die konkrete Rechendauer hängt natürlich auch entscheidend on 
einer effizienten Implementierung ab).

Die Textbasis wäre halt nochmal deutlich grösser als die Leipziger 
Variante, aber ob das für uns auch einen echten Mehrwert bringen würde, 
darf durchaus angezweifelt werden.

> Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie überall.

Klar, aber die meisten Artikel in der Wikipedia sind vielfach 
gegengelesen bzw. korrigiert worden … wenigstens in der Theorie sollten 
deshalb nur im akzeptablen Maße Rechtschreibfehler auftreten.

> Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch wird 
> die Relevanz für den allgemeinen Gebrauch von daraus gewonnenen 
> Worthäufigkeiten extrem variieren.

Das ist allerdings wahr, aber jede Textquelle hat ihre spezifischen Vor- 
wie Nachteile.


Viele Grüße,
Dennis-ſ


¹ http://de.wikipedia.org/wiki/Wikipedia:Download
² 
http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 
(1,6 GB!)
³ 
http://download.wikimedia.org/ndswiki/latest/ndswiki-latest-pages-articles.xml.bz2




More information about the Diskussion mailing list