piatok 27. apríla 2012

Niektoré štatistické charakteristiky slovenčiny

Na vzorke textu s 940 903 znakmi bez medzery, resp. s medzerou 1 109 841 znakmi (t.j. medzera mala 15% pravdepodobnosť výskytu), boli vykonané niektoré experimentálne merania frekvenčných charakteristík. Korpus (tj. súbor textov určených na štatistickú analýzu) mal simulovať modernizovanú náhodnú zmes, preto bol zložený z novinových článkov, informatických textov a klasickej slovenskej literatúry. Niektoré z nameraných štatistík užitočné pre lúštenie sú zhrnuté tu (Q, W, X sa vynechali, tieto sú v globále extrémne zriedkavé, aj keď v niektorých textoch sa správajú podobne ako F, G):
TSA (Telegrafná slovenská abeceda)

%         11  9  7  6  5  5  4      4  3    3 2      2    0
TSA:       A O,E/I/N,S,T/ R L,D/V,K,U M,C/P,Z H/ Y,J,B/ F,G

V rámci skupín znaky často menia poradie.

%              12  9  8     7       5  4         3     2   1
Začiatky slov:S,P  N  V  A,Z  T,M,K,D  O C,B,R,J,U H,I,L F,E

%             18  15  10  9  8  6  5   4    3          2   1
Konce slov:    A   E   O  I  U  Y  M V,T H,J,L K,Z,S,D,N R,C

Pravdepodobnosť zdvojenia znaku: 0,2 %

Najčastejšie zdvojené:    I N S L O D A     (s medzerami)
                          A I O N T U E L D (bez medzier)

Najčastejšie bigramy (z 1000, bez medzier):
      15      14     12           11              10
   OV,ST   NA,NE  EN,PR  RA,PO,AN,TO  NI,AL,AT,IE,LA

                            9
   VA,CH,KO,TA,RE,RO,AS,ES,AV   = Spolu 25,5 %

Časté reverzné (z 1000, bez medzier):

NE-EN (13:12), NA-AN (14:11), AL-LA (10:10), AT-TA (10:9),
VA-AV (9:9),   RO-OR (9:8),   AS-SA (9:7),

Časté nereverzné (z 1000, bez medzier):

ST (15:1), PR (12:0), IE (10:1), CH (9:1), IA (8:1)

Časté trigramy:

0.4% : OVA  PRE  OST  PRI
0.3% : STA  ANI  NIE  YCH  TOR  OVE  EHO  KTO  EST

Bez medzier a s prekryvom je:

Počet rôznych bigramov:        632 (93 %)
Počet rôznych trigramov:      9387 (53 %)
Počet rôznych tetragramov:   67915 (15 %)
Počet rôznych pentagramov:  236078 ( 2 %)

Žiadne komentáre:

Zverejnenie komentára