[Neo] Textcorpora der Uni Leipzig (was: Textkörper für Neo3)

Karl Köckemann neo-nntp at freenet.de
So Nov 29 06:40:29 CET 2009


Am Sat, 28 Nov 2009 23:17:49 +0100
schrieb Pascal Hauck <neo at pascalhauck.de>:

> Am Samstag, 28. November 2009 17:53:34 schrieb Karl Köckemann:
> > einen Textkörper gäbe, den alle einheitlich verwenden könnten
> 
> Nicht falsch. Dennoch rate ich dazu, die Auswertungsprogramme zu Neo3
> derart zu gestalten, dass jederzeit auch andere Textcorpora verwendet
> werden können, so dass das die Qualität der Belegung für
> unterschiedliche Anwendungen untersucht werden kann oder sich
> einzelne eine sehr persönliche Textgrundlage mit Hilfe eines
> Keyloggers erstellen können.

So meinte ich das. Ein kleiner einheitlicher Textkörper der bei
verschiedenen Personen zur gleichen Konfiguration dasselbe Ergebnis
liefern soll, mag der Kontrolle dienen, ob die Auswertungsprogramme das
tun, was sie sollen.


Soeben konnte eine umfangreichere Zeichenhäufigkeitsliste erstellt
werden.

Grundlage sind die ersten 2 Millionen Sätze des 3 Millionen Sätze
fassenden, auf deutsche Sprache bereinigten Textkorpus:
http://corpora.informatik.uni-leipzig.de/resources/flatfiles/de05_3M.zip

Die im Textkorpus enthaltenen Zeilennummern wurden vor der
Zeichenzählung entfernt.

Zeilen:	2.000.001 (am Dateiende stand eine Leerzeile)
Leerzeilen:	1
Wörter:	31.456.974
Zeichen mit LFCR:	225.940.467
Zeichen:	221.940.463 (als Bezugswert verwendet)
Zeichen ohne Space:	192.483.491
längste Zeile:	256 Zeichen incl. LFCR

Rang | Zeichen | ASCII | absolute | relative Häufigkeit
1	SP	(032)	29.456.974	0,1327246668
2	e	(101)	29.349.416	0,1322400413
3	n	(110)	18.005.865	0,0811292576
4	i	(105)	14.163.573	0,0638169931
5	r	(114)	13.675.582	0,0616182458
6	t	(116)	11.294.004	0,0508875392
7	s	(115)	10.371.602	0,0467314606
8	a	(097)	10.024.043	0,0451654595
9	d	(100)	7.822.099	0,0352441321
10	h	(104)	7.487.817	0,0337379534
11	l	(108)	6.581.471	0,0296542186
12	u	(117)	6.531.832	0,0294305595
13	g	(103)	5.025.180	0,0226420182
14	c	(099)	4.884.824	0,0220096144
15	o	(111)	4.866.093	0,0219252178
16	m	(109)	4.237.507	0,0190929898
17	b	(098)	2.988.242	0,0134641604
18	f	(102)	2.685.867	0,0121017455
19	k	(107)	2.170.999	0,0097818981
20	w	(119)	2.100.551	0,0094644797
21	.	(046)	2.092.284	0,0094272309
22	z	(122)	2.021.359	0,0091076633
23	,	(044)	1.803.065	0,0081240932
24	p	(112)	1.309.975	0,0059023712
25	v	(118)	1.299.513	0,0058552324
26	S	(083)	1.256.291	0,0056604865
27	ü	(252)	1.213.934	0,0054696380
28	ä	(228)	1.067.934	0,0048118040
29	D	(068)	1.055.892	0,0047575462
30	A	(065)	894.584	0,0040307386
31	B	(066)	845.220	0,0038083186
32	M	(077)	793.298	0,0035743730
33	E	(069)	650.969	0,0029330794
34	-	(045)	635.291	0,0028624388
35	K	(075)	600.271	0,0027046488
36	P	(080)	595.839	0,0026846794
37	G	(071)	558.746	0,0025175490
38	F	(070)	557.981	0,0025141022
39	W	(087)	546.502	0,0024623811
40	"	(034)	516.191	0,0023258084
41	ö	(246)	470.302	0,0021190458
42	0	(048)	432.493	0,0019486893
43	ß	(223)	431.337	0,0019434807
44	V	(086)	429.807	0,0019365869
45	T	(084)	427.174	0,0019247234
46	H	(072)	425.663	0,0019179153
47	R	(082)	425.394	0,0019167032
48	L	(076)	359.394	0,0016193262
49	I	(073)	358.559	0,0016155639
50	U	(085)	334.060	0,0015051784
51	N	(078)	312.499	0,0014080308
52	1	(049)	300.682	0,0013547868
53	J	(074)	281.860	0,0012699802
54	Z	(090)	263.164	0,0011857414
55	j	(106)	228.764	0,0010307449
56	C	(067)	210.549	0,0009486733
57	2	(050)	202.687	0,0009132494
58	:	(058)	200.924	0,0009053059
59	y	(121)	189.569	0,0008541435
60	9	(057)	174.843	0,0007877924
61	O	(079)	161.240	0,0007265011
62	5	(053)	138.237	0,0006228562
63	3	(051)	126.035	0,0005678775
64	(	(040)	116.248	0,0005237801
65	)	(041)	116.215	0,0005236314
66	4	(052)	105.580	0,0004757132
67	x	(120)	98.046	0,0004417671
68	6	(054)	89.528	0,0004033875
69	8	(056)	87.610	0,0003947455
70	7	(055)	79.581	0,0003585691
71	'	(039)	60.589	0,0002729966
72	?	(063)	54.815	0,0002469807
73	Ü	(220)	31.776	0,0001431735
74	q	(113)	26.526	0,0001195185
75	Q	(081)	21.964	0,0000989635
76	/	(047)	21.638	0,0000974946
77	Ö	(214)	18.553	0,0000835945
78	;	(059)	16.586	0,0000747318
79	Ä	(196)	14.967	0,0000674370
80	!	(033)	13.415	0,0000604441
81	Y	(089)	11.799	0,0000531629
82	é	(233)	8.517	0,0000383752
83	&	(038)	4.506	0,0000203027
84	X	(088)	4.227	0,0000190456
85	%	(037)	1.772	0,0000079841
86	+	(043)	1.126	0,0000050734
87	á	(225)	969	0,0000043660
88	§	(167)	873	0,0000039335
89	`	(096)	865	0,0000038974
90	è	(232)	759	0,0000034198
91	„	(132)	624	0,0000028116
92	“	(147)	607	0,0000027350
93	ó	(243)	562	0,0000025322
94	í	(237)	466	0,0000020997
95	à	(224)	450	0,0000020276
96	–	(150)	390	0,0000017572
97	[	(091)	380	0,0000017122
98	]	(093)	376	0,0000016941
99	ç	(231)	368	0,0000016581
100	ë	(235)	335	0,0000015094
101	=	(061)	283	0,0000012751
102	»	(187)	253	0,0000011399
103	«	(171)	241	0,0000010859
104	#	(035)	215	0,0000009687
105	ô	(244)	175	0,0000007885
106	ñ	(241)	172	0,0000007750
107	@	(064)	158	0,0000007119
108	ú	(250)	138	0,0000006218
109	$	(036)	132	0,0000005948
110	ã	(227)	115	0,0000005182
111	â	(226)	104	0,0000004686
112	ø	(248)	103	0,0000004641
113	ê	(234)	94	0,0000004235
114	É	(201)	84	0,0000003785
115	>	(062)	65	0,0000002929
116	_	(095)	53	0,0000002388
117	Ç	(199)	51	0,0000002298
118	<	(060)	46	0,0000002073
119	î	(238)	45	0,0000002028
120	ï	(239)	42	0,0000001892
121	æ	(230)	32	0,0000001442
122	¤	(164)	31	0,0000001397
123	ò	(242)	31	0,0000001397
124	å	(229)	26	0,0000001171
125	Á	(193)	25	0,0000001126
126	Å	(197)	24	0,0000001081
127	°	(176)	19	0,0000000856
128	û	(251)	17	0,0000000766
129	ù	(249)	14	0,0000000631
130	^	(094)	13	0,0000000586
131	ì	(236)	13	0,0000000586
132	²	(178)	11	0,0000000496
133	’	(146)	8	0,0000000360
134	µ	(181)	8	0,0000000360
135	½	(189)	8	0,0000000360
136	Ô	(212)	7	0,0000000315
137	Ø	(216)	7	0,0000000315
138	\	(092)	6	0,0000000270
139	¥	(165)	6	0,0000000270
140	}	(125)	5	0,0000000225
141	‘	(145)	5	0,0000000225
142	×	(215)	5	0,0000000225
143	õ	(245)	5	0,0000000225
144	{	(123)	4	0,0000000180
145	È	(200)	4	0,0000000180
146	Ó	(211)	4	0,0000000180
147	®	(174)	3	0,0000000135
148	º	(186)	3	0,0000000135
149	”	(148)	2	0,0000000090
150	£	(163)	2	0,0000000090
151	±	(177)	2	0,0000000090
152	Í	(205)	2	0,0000000090
153	Î	(206)	2	0,0000000090
154	Ò	(210)	2	0,0000000090
155	Ú	(218)	2	0,0000000090
156	©	(169)	1	0,0000000045
157	­	(173)	1	0,0000000045
158	³	(179)	1	0,0000000045
159	´	(180)	1	0,0000000045
160	·	(183)	1	0,0000000045
161	¼	(188)	1	0,0000000045
162	¿	(191)	1	0,0000000045
163	À	(192)	1	0,0000000045
164	Ê	(202)	1	0,0000000045
165	Ë	(203)	1	0,0000000045
166	Ñ	(209)	1	0,0000000045
167	Û	(219)	1	0,0000000045
168	ý	(253)	1	0,0000000045
169	ÿ	(255)	1	0,0000000045
(48)	LF	(010)	2.000.001	0,0090114302
(48)	CR	(013)	2.000.001	0,0090114302

Mit SP bei Rang 1 ist das Leerzeichen gemeint.
Da jede Zeile des Textkörpers genau einen Satz enthielt, wurden die
Zeichen für den Zeilenvorschub (LF, CR) ans Ende der Tabelle gestellt.
Darunter kann man sich die Enter-Taste vorstellen. Unter der Annahme,
dass durchschnittlich 5 Sätze in einem Absatz stehen könnten, wurden die
beiden Zeichen in Klammern bei etwa Rang 48 eingeschätzt, um eine
Annäherung für die Entertaste zu bekommen.

Ermittelt wurden die absoluten Häufigkeiten mit dem nur die
ASCII-Zeichen erfassenden Programm
http://www.sttmedia.com/charactercounter

Bi- und Trigramme lassen sich mit dem Programm ebenfalls bestimmen,
allerdings nicht für eine so große Datengrundlage - und es unterscheidet
es in dem Modus nicht Klein- von Großbuchstaben.

Die relativen Häufigkeiten wurden in einem Tabellenkalkulationsprogramm
bestimmt, wobei als Gesamtzeichenanzahl 221.940.463 eingesetzt wurde.

Mit anderen Buchstabenhäufigkeitsangaben wurde das Ergebnis noch nicht
verglichen - ist mir jetzt spät genug geworden.

Vielleicht könnt ihr mit der Zeichenhäufigkeitsliste etwas anfangen.
Immerhin basiert sie auf 1 % der deutschsprachigen Internetseiten und
auf Zeitungsartikel.

Mit netten Grüßen
Karl






More information about the Diskussion mailing list