Na vzorke textu s 940 903 znakmi bez medzery, resp. s medzerou 1 109 841 znakmi (t.j. medzera mala 15% pravdepodobnosť výskytu), boli vykonané niektoré experimentálne merania frekvenčných charakteristík. Korpus (tj. súbor textov určených na štatistickú analýzu) mal simulovať modernizovanú náhodnú zmes, preto bol zložený z novinových článkov, informatických textov a klasickej slovenskej literatúry. Niektoré z nameraných štatistík užitočné pre lúštenie sú zhrnuté tu (Q, W, X sa vynechali, tieto sú v globále extrémne zriedkavé, aj keď v niektorých textoch sa správajú podobne ako F, G):
TSA (Telegrafná slovenská abeceda)
% 11 9 7 6 5 5 4 4 3 3 2 2 0
TSA: A O,E/I/N,S,T/ R L,D/V,K,U M,C/P,Z H/ Y,J,B/ F,G
V rámci skupín znaky často menia poradie.
% 12 9 8 7 5 4 3 2 1
Začiatky slov:S,P N V A,Z T,M,K,D O C,B,R,J,U H,I,L F,E
% 18 15 10 9 8 6 5 4 3 2 1
Konce slov: A E O I U Y M V,T H,J,L K,Z,S,D,N R,C
Pravdepodobnosť zdvojenia znaku: 0,2 %
Najčastejšie zdvojené: I N S L O D A (s medzerami)
A I O N T U E L D (bez medzier)
Najčastejšie bigramy (z 1000, bez medzier):
15 14 12 11 10
OV,ST NA,NE EN,PR RA,PO,AN,TO NI,AL,AT,IE,LA
9
VA,CH,KO,TA,RE,RO,AS,ES,AV = Spolu 25,5 %
Časté reverzné (z 1000, bez medzier):
NE-EN (13:12), NA-AN (14:11), AL-LA (10:10), AT-TA (10:9),
VA-AV (9:9), RO-OR (9:8), AS-SA (9:7),
Časté nereverzné (z 1000, bez medzier):
ST (15:1), PR (12:0), IE (10:1), CH (9:1), IA (8:1)
Časté trigramy:
0.4% : OVA PRE OST PRI
0.3% : STA ANI NIE YCH TOR OVE EHO KTO EST
Bez medzier a s prekryvom je:
Počet rôznych bigramov: 632 (93 %)
Počet rôznych trigramov: 9387 (53 %)
Počet rôznych tetragramov: 67915 (15 %)
Počet rôznych pentagramov: 236078 ( 2 %)
Žiadne komentáre:
Zverejnenie komentára