[Neo] Textcorpora der Uni Leipzig (was: Textkörper für Neo3)

Wolf-Heider Rein whrein at t-online.de
Mo Nov 30 13:23:59 CET 2009


Guten Tag,

Am 30.11.2009 um 11:43 schrieb Karl Köckemann:

> Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter
> (wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund
> ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so
> stark ins Gewicht fallen, dass sie tatsächlich aus der Datei
> verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen,
> dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten?
>
>> Vergiss Leipzig. Oder nicht?
>
> Nein. Solange keine bessere Alternative besteht, lassen sich aus den
> großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen
> Corpora nicht nennenswert anders zu erwarten sein werden. Auch sind  
> die
> Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin
> ein paar Tippfehler enthalten sind.

Für die Untersuchung von Buchstabennachbarschaften verwende ich  
vorzugsweise die Rangliste der Universität Leipzig für die 10 000  
häufigsten deutschen Wörter. Für die Fragen einer zweckmäßigen  
Belegung würde vermutlich bereits die Liste der 1000 häufigsten Wörter  
ausreichen. Bei häufig vorkommenden Buchstabenfolgen wird man  
vermutlich zwischen einer Liste der 1000 und einer Liste der 10 000  
häufigsten Wörter kaum einen Unterschied finden. Unterschiede findet  
man allenfalls bei den Buchstabenfolgen, die selten gebrauchte  
Buchstabe enthalten. Aber bei diesen Buchstaben gelten ohnehin andere  
Gesichtspunkte.

Bei einer Belegung werden zuerst die häufig vorkommenden Buchstaben  
auf griffgünstige Tastpunkte gelegt. Die Anordnung der selten  
gebrauchten Buchstaben richtet sich daran anschließend nicht mehr nach  
ihrer Häufigkeit, sondern nach den Tastpunkten, die dann noch frei  
sind, und nach der "gefühlten" Logik ihrer Position, also nach dem  
Zusammenhang von a/ä, o/ö, u/ü, s/ß oder z/ß, k/q usw., also nach  
Beziehungen, die man sich leicht merken kann. Wenn ein Buchstabe mit  
einem Präfix (also mit einer Tottaste) aufgerufen werden soll, dann  
ist es vor allem wichtig, dass dieser Buchstabe und die Tottaste sich  
möglichst leicht gemeinsam greifen lassen.

Zusammenfassend meine ich: die Wahl eines deutschen Corpus erscheint  
mir unkritisch. Beachtliche Unterschiede ergeben sich erst dann, wenn  
man Fremdsprachen einbezieht.

Heider








More information about the Diskussion mailing list