[Neo] Textcorpora der Uni Leipzig (was: Textkörper für Neo3)

Ulf Bro ulf.bro at web.de
Mo Nov 30 12:52:32 CET 2009


> In den Corpora der Uni-Leipzig ist jeweils eine Datei namens words.txt
> enthalten, die die Wörter des betreffenden Corpus in der gewünschten
> Weise enthält. In der Datei besteht jede Zeile aus Rangnummer (je
> kleiner die Zahl, desto häufiger das Wort), das Wort und die absolute
> Häufigkeit.
> Statt nur Kleinbuchstaben zu verwenden, wäre es machbar (sofern
> überhaupt sinnvoll), den Großbuchstaben Strafpunkte zu geben?

Ja. Genau diese Datei habe ich als Ausgangspunkt benutzt (siehe meine Email, 
da ist „words.txt“ erwähnt).

> > 5. Schauen wir uns die Datei w3.txt mal an:
> >
> > aaber   1
> > aabiete 1
> > aabrar  1
> > aaby    1
> > aabye   1
> > aac     2
> > aach    25
> > aachen  801
> > aachene 1
> > aachener        339
> > aachenerin      5
> > aachenern       2
> > aacheners       2
> > aachens 22
> > aacm    1
> > aacsb   2
> > aad     31
> > aadabei 1
> > aads    1
> > aaen    1
> > aaf     2
> > aafach  1
> > aafang  1
> > …
> > aafmüpfig       1
> > …
> > aagehn  1
> > …
> > aah     14
> > …
> > abadschiew      1
> > abadschijew     1
> > …
> > abdrükke        1
> > …
> > eßgenuß 1
> > …
> > genuß   313
> > genuss  392
> > …
> > nun     41429
> > nunavut 7
> > nunez   17
> > nunmal  21
> > nunmehr 1349
> > nunmehrigen     6
> > nunn    29
> > nuno    10
> > nünthel 40
> > nuntiatur       8
> > nuntius 27
> > nuon    8
> > [...]
> > Die Datei w3.txt enthält etwa 1 Million Zeilen, darunter also jede
> > Menge Rechtschreibfehler.
>
> Aus welcher Datei (welchem Corpus) stammen diese Wörter?

Wie ich in meiner Email schon beschrieben habe, stammt w3.txt aus w2.txt, die 
auf w1.txt, w.txt und davor words.txt basiert.

> Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter
> (wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund
> ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so
> stark ins Gewicht fallen, dass sie tatsächlich aus der Datei
> verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen,
> dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten?

Eine schöne Frage für die Runde der Kritiker. Mein Textkorpus, den ich in 
meinem Auswerteprogramm benutze, ist vollständig bereinigt für irrelevante 
Wörter und Fehler — das Vorgehen habe ich in den damaligen Mails beschrieben. 
Es war eine unglaublich anstrengende Arbeit, das kann sich keiner vorstellen, 
ganze Nächte.

Ich vergleiche Tastaturen auf ihre Fähigkeit, diesen bereinigten Korpus zu 
tippen.

> > Vergiss Leipzig. Oder nicht?
>
> Nein. Solange keine bessere Alternative besteht, lassen sich aus den
> großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen
> Corpora nicht nennenswert anders zu erwarten sein werden. Auch sind die
> Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin
> ein paar Tippfehler enthalten sind.

Ich bin gespannt auf die Mitteilung von denen, die Tastaturen bewerten und mit 
einander vergleichen –wobei sie einerseits den Leipziger Korpus benutzen und 
andererseits zum Beispiel meinen –ob dadurch plötzlich eine andere Tastatur 
besser erscheint als vorher angenommen. Und überhaupt wird es spannend zu 
sehen, welche zusätzliche Erkenntnisse wir da gewinnen. Lassen wir es auf uns 
zukommen.

====

Ich arbeite zur Zeit auf ein neues Bewertungssystem, bei dem überhaupt kein 
Textkorpus Verwendung findet, sondern nur ein Matrixmodell, das die 
Häufigkeiten der Folgezeichen bewertet. Habe ich also unter einem Finger drei 
Tasten, eine in jeweils der oberen, mittleren und unteren Reihe, dann kann 
ich für jede der Tasten das Risiko berechnen, eine der zwei anderen in der 
Folge drücken zu müssen, durch einfache Addition. Der Matrix entsteht 
natürlich durch Abgrasen eines Korpus. Verschiedene Korpora führen demnach zu 
unterschiedlichen Matrizen. Wenn die Inhalte der Matrixzellen als relative 
Größen ausgedrückt werden, wird es einfach sein, die tatsächliche Bedeutung 
eines Korpuswechsels zu quantifizieren. Ich nehme an, dass die Matrixmethode 
sehr schnell sein wird (millisekunden) und somit die Grundlage eines 
automatisierten Entwicklungssystems werden kann. Aber das nur so nebenbei. 
Vielleicht hat jemand anders ja den großen Wurf gemacht, bevor ich so weit 
bin.

Ulf




More information about the Diskussion mailing list