[Neo] Wikipedia-Textcorpora

Martin Roppelt m.p.roppelt at web.de
Mo Nov 30 23:04:09 CET 2009


Dennis Heidsiek ſchrieb:
> Dummerweise kommt diese (bereits komprimierte!) Datei² auf stolze 1,6 
> GB.Ich habe mir mal als Vergleichsmaßstab die plattdeusche Wikipedia 
> heruntergeladen; hier kommt die entsprechende Datei³ auf ›nur‹ auf 
> 12,03 MB, und wächst entpackt auf 56,6 MB an (Faktor 4,705). Damit 
> ergibt sich für den entpackten Schnapschuss der deutschen Wikipedia 
> eine Größe von 7,5GB.

Schon eine grobe Abschätzung von ~1 Mio. Artikeln ∙ n KB ergibt eine 
Größe im GB-Bereich. Nix, was man nicht bewältigen könnte (schlimmer 
wärs im TB-Bereich … Festplatten-dd(=disk-dump, d.h. kopieren) lässt 
grüßen ;)

> Die Textbasis wäre halt nochmal deutlich grösser als die Leipziger 
> Variante, aber ob das für uns auch einen echten Mehrwert bringen 
> würde, darf durchaus angezweifelt werden.

Obs was bringt, ist eine gute Frage. Ich denke jedoch, was die 
Machbarkeit/Rechendauer angeht, ist das machbar (;)).

> Karl Köckemann:
> >Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie 
> >überall.
> 
> Klar, aber die meisten Artikel in der Wikipedia sind vielfach 
> gegengelesen bzw. korrigiert worden … wenigstens in der Theorie 
> sollten deshalb nur im akzeptablen Maße Rechtschreibfehler auftreten.

Die Artikelbasis ist (bei häufig frequentierten Lemmata) sicherlich 
gründlich gegengelesen worden. Allerdings schleichen sich bei den 
letzten Änderungen auch viele Rechtschreibfehler ein. Es gibt bei der 
(deutschen) Wikipedia das System der gesichteten Versionen (d.h., dass 
Änderungen von Nich-Sichtern von Sichtern (erfahrenen Autoren) nochmal 
gegengelesen werden und, wenn nicht vandaliert oder der Artikel 
verschlechtert wurde (z.B. hier Rechtschreibfehler), als gesichtet 
markiert werden). Wenn man nun nur diese (jeweils letzten) gesichteten 
Versionen nimmt, kann man die Wahrscheinlichkeit von Rechtschreibfehlern 
gegen Null führen.

Mann kann sich nun den (größeren) Dump mit allen Versionen holen, und 
den verarbeiten (ist, glaub ich, ne Datenbank, keine Ahnung wie ich die 
anpacken sollte). Oder man holt sich per API jeweils 50 Versionen (die 
Erfahrung zeigt, dass wohl nur 25 möglich sind) (mit einem 
Bot-/Adminaccount gehen 10mal so viel). Wie man das macht, wüsste ich.

> >Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch 
> >wird die Relevanz für den allgemeinen Gebrauch von daraus gewonnenen 
> >Worthäufigkeiten extrem variieren.
> 
> Das ist allerdings wahr, aber jede Textquelle hat ihre spezifischen 
> Vor- wie Nachteile.

Zwar gibt es in Fachartikeln auch viele Fremdwörter und lexikatypische 
Begriffe (Einzelnachweise, Quellen, Weblinks, …), welche letzteren man 
neben der Wikisyntax auch noch aus der Textbasis entfernen müsste. Aber 
im Großen und Ganzen, denke ich, besteht die Wikipedia auch nur aus 
normalem Text.

Aber ich denke auch, dass, wie von Ulf schon angedacht, der Wert der 
Worthäufigkeiten überschätzt ist, und man den Fokus mehr auf die 
Buchstabenfolgen legen muss (die Worthäufigkeiten gehen dann eh unter 
?).

Gruß,
 Martin




More information about the Diskussion mailing list