utorok, 1. novembra 2011

Citát dňa - Rozpätie jedinečnosti - vzdialenosť jednoznačnosti správneho dešifrovania kryptogramov

"V rokoch 2. svet. vojny sa vynorila otázka a naliehavá potreba nájsť spoľahlivé šifry a zároveň bolo potrebné vyriešiť aj opačný problém - dešifrovať tajné správy nepriateľa. V Spojených štátoch sa riešením tohto problému zaoberali mnohí vynikajúci vedci medzi nimi Claude Elwood Shannon. Výsledkom jeho výskumov bol tajný referát Matematická metóda kryptografie. Po skončení vojny tento referát uverejnili a stal sa základom Shannonovej práce Teória spojenia v utajených systémoch. "Rozpätie jedinečnosti" [pozn. správnejšie má byť vzdialenosť jednoznačnosti], to je minimálny rozsah textu, pri ktorom je možné jedno jediné správne riešenie, dešifrovanie kryptogramu. Povedzme, že máme text zašifrovaný v anglickom jazyku, kde sú písmená nahradené číslami (spomeňme si na román Edgara A. Poa Scarabeus - Poe bol mimochodom jedným z priekopníkov matematickej metódy dešifrovania kryptogramov). V podstate môžeme prečítať tento ( a každý iný), zašifrovaný text pomocou jednoduchého triedenia. Máme 26 rozličných čísel. Im zodpovedá 26 písmen anglickej abecedy. Postupným skúšaním variantov (je znak písmenom a?, b?, c?, atď) môžeme natrafiť na správne riešenie. Správne však bude iba vtedy, ak máme k dispozícii dodatočne dlhý text. V opačnom prípade môžeme prečítať zašifrovaný text niekoľkými spôsobmi, pričom všetky budú z hľadiska anglického jazyka správne, všetky budú dávať zmysel.
Shannon dokázal, že pre anglický jazyk a abecedu sa "rozpätie jedinečnosti" rovná približne 30 znakom. Ak máme taký dlhý, alebo dlhší text, môžeme predpokladať, že je možné iba jedno jediné riešenie. Ak má menej ako 30 znakov, môžeme ho prečítať viacerými spôsobmi. A čím je text kratší, tým pripúšťa viac variantov prečítania.
Napr., ak má text iba 8 znakov, môžeme s ním porovnať vyše 40 000 kombinácií anglických písmen, ktoré môžu zodpovedať týmto znakom. Približne osmina týchto kombinácií bude správna, čiže bude tvoriť anglické slová. Inými slovami, je možných okolo 5000 "riešení" kryptogramu (t.j. osem znakov sa dá čítať aj ako slovo the first, aj ako district, aj ako in danger atď. a pod.) To značí, že kryptogram nie sme prakticky schopní rozšifrovať - variantov jeho riešenia je priveľa a obsahuje primálo znakov.
Ako sa Shannonovi podarilo určiť "rozpätie jedinečnosti", čiže rozsah textu, ktorý stačí na dešifrovanie? Tento rozsah sa skladá z troch komponentov; predovšetkým z celkového počtu rôznych znakov, pri ktorých musíme zistiť ako sa čítajú. Potom počet "referentov", počet počet písmen (alebo zvukov), ktorým musia zodpovedať znaky kryptogramu (napr. v príp. čo sme rozoberali vyššie, je počet čísel a počet referentov písmen anglickej abecedy, tiež 26). Napokon musíme poznať aj tretiu veličinu, tzv. "redundanciu" - nadbytočnosť jazyka.
Nie každé spojenie písmen tvorí anglické slovo (takisto ako ruské, nemecké a iné). Niektoré písmená a spojenia písmen sa v angličtine používajú veľmi často (napr. th), iné zriedkavo, tretie sa nevyskytujú vôbec (napr. ht). Okrem zákonov fonetiky, morfológie a lexiky sú tu aj zákony gramatiky vyžadujúce zladenie časov, pádov a pod. To všetko vytvára množstvo "zábran, obmedzení. A tým vzniká "redundancia" jazyka (ak sa použije zámeno my aj sloveso musí byť v množnom čísle atď.) V anglickom jazyku sa redundancia rovná približne 75 %. To značí, že približne tri štvrtiny písmen v anglickom texte sú "nadbytočné" a používajú sa nie na úsilie odovzdať informáciu, ale na zákony gramatiky, lexiky a pod. To, prirodzene, mnohonásobne obmedzuje počet možných informácií a umožňuje nájsť "rozpätie jedinečnosti" na dešifrovanie kryptogramov."
Citát z knihy Kondratov, A.: Kniha o písme, Smena, Bratislava, 1981, str. 220

Žiadne komentáre:

Zverejnenie komentára