Úvod do kódovania

Kódovanie, či šifrovanie? Určite ste sa už stretli s oboma pojmami. Viete, aký je medzi nimi rozdiel? Viete, čo znamenajú? Ak nie, tak v niekoľkých nasledujúcich číslach si to priblížime.

Čo si predstavíte pod slovom kódovanie? Najskôr to asi bude (častokrát aj pod vplyvom nedávno videných filmov) zhluk na prvý pohľad náhodných písmen a číslic. Ale s kódovanými správami sa stretávame bežne – napríklad na hodinách cudzieho jazyka (pre niektorých možno aj na hodinách jazyka materinského). Informácia preložená do cudzieho jazyka sa stáva nečitateľnou a tak aj nepoužiteľnou pre toho, kto tento jazyk neovláda.

Iným príkladom kódovaných správ sú piktogramy – grafické znaky, ktoré znázorňujú informáciu obrazom, ktorého podoba a čítanie nie sú pevne stanovené a neviažu sa na určitý jazyk. Nájdeme ich všade v našom okolí – začínajúc dopravnými značkami, pokračujúc štítkami na bielizni a končiac tabuľkami na záchodoch. Niektoré z nich sú jasné, ale čo poviete na tento obrázok dvoch osôb? Čo podľa vás znázorňuje?

Ďalším príkladom kódovania sú informácie uložené na pevných diskoch počítačov a na pamäťových médiách – všetky informácie sa tam ukladajú v podobe núl a jednotiek, ktoré sú pre nás, bežných smrteľníkov, nečitateľné a nezrozumiteľné. Úlohou kódovania je teda transformovať informácie do takej podoby, ktorá nebude zrozumiteľná pre neznalých alebo je vhodná pre konkrétnu činnosť. Opačná činnosť sa nazýva dekódovanie.

Rozdiel medzi kódovaním a šifrovaním nie je veľký – tieto slová pomenúvajú skoro tú istú činnosť. Jedným z rozdielov medzi nimi je ten, že slovo kódovanie je z jazykového hľadiska všeobecnejšie. Z hľadiska obsahu niektorí autori rozlišujú kódovanie od šifrovania tak, že pod šifrovaním (kryptografiou) myslia také kódovanie, ktoré má za cieľ utajiť nejakú informáciu pred ostatnými.

V ďalšom texte sa vám pokúsim priblížiť niektoré techniky kódovania, ktoré sú použiteľné v bežnom živote, resp. ktoré sa používali aj v histórii. Budeme sa zaoberať napríklad hieroglyfmi, Cézarovou šifrou, morzeovkou, vlajkovou či obrázkovou abecedou.

Hieroglyfy

Najstaršie hieroglyfy poznáme približne z roku 3000 pred naším letopočtom. Názov pochádza z gréckeho slova hieroglyphia, ktoré znamená „posvätná plastika“. Toto písmo bolo vďaka svojej peknej grafickej podobe vhodné do chrámov, avšak na každodenné záznamy bolo príliš zložité. Preto sa postupne vyvíjal nový druh písma, tzv. hieratika. V tomto písme sa hieroglyfy nahradili jednoduchšími znakmi, ktoré sa písali oveľa rýchlejšie a jednoduchšie. Týmto však postup zjednodušovania stále neskončil – približne šesť storočí pred naším letopočtom bola hieratika nahradená ešte jednoduchším písmom – démotikou.

Hieroglyfy predstavujú fonetické písmo, teda jednotlivé znaky predstavujú zvuky. Tento poznatok však prišiel veľmi neskoro – prvé pokusy o preklady v 17. storočí nášho letopočtu hovoria o tom, že jednotliví učenci chápali hieroglyfy ako piktogramy, teda že každý obrázok znázorňuje nejaký pojem súvisiaci s vyobrazením. Dochádzalo tak k úsmevným prekladom ako napríklad Athanasius Kircher vo svojom diele Oedipus aegyptiacus preložil meno faraóna Apriesa ako „dobrodenie božského Osirisa má sa získať pomocou svätých obradov a rady božstiev tak, aby prospech z Nílu mohol byť obdržaný“.

Až v roku 1799 prišiel v otázke hieroglyfov kľúčový zlom. V tomto roku našli francúzski vojaci z pevnosti Fort Julien v meste Rosetta v stene zabudovaný kameň, na ktorom bol ten istý text napísaný trikrát – v hieroglyfoch, démotickom písme a gréčtine. Rozmery tohto kameňa, ktorý je známy pod menom Rosettská doska, sú impozantné – má výšku 114,4 cm, šírku 72,3 cm a hrúbku 27,9 centimetra, jeho hmotnosť je približne 760 kg. Týmto objavom sa otvorila cesta pre dekódovanie tohto písma. Na jeho dekódovaní sa podieľali hlavne dvaja vedci – Brit Thomas Young a Francúz Jean-François Champollion.

Thomas Young bol jedným z prvých, ktorí spochybnili všeobecné presvedčenie, že hieroglyfy predstavujú obrázkové písmo. Dôležitým objavom sa ukázal jeho predpoklad, že hieroglyfy v rámčekoch by mohli predstavovať mená faraónov. Takto postupne porovnával jednotlivé mená a na základe podobných hlások v nich preložil časť znakov. Svoje poznatky zhrnul v článku, ktorý vyšiel v roku 1819 v dodatku encyklopédie Britannica.

V jeho myšlienkach pokračoval Francúz Jean-François Champollion, ktorého už v jeho sedemnástich rokoch zvolili za člena Akadémie v Grenobli za jeho článok Egypt za vlády faraónov. Pri prekladaní vychádzal z hieroglyfov znázorňujúcich mená Ptolemaia a Kleopatry – konkrétne z písmen p, t, o, l a e, ktoré sú pre obe mená spoločné. Pri písmene t prišiel k prvému rozporu. Ten však vyriešil jednoducho – začal predpokladať, že zvuk t môže byť predstavovaný dvoma hieroglyfmi. Druhým kľúčovým poznatkom bolo, že prišiel na to, že pisári často vynechávali z mien samohlásky, pretože predpokladali, že si ich tam budú vedieť všetci doplniť. Neskôr zistil, že všetky mená sa hláskovali foneticky. Pri prekladaní mu pomohli znalosti koptského jazyka. Zistil taktiež, že na znázorňovanie niektorých slov sa používajú piktogramy – napríklad slovo „slnko“ bolo znázornené obrázkom slnka.

Výsledky svojho bádania zhrnul v roku 1824 v práci Précis du système hiéroglyphique des anciens Égyptiens. Niekoľko ďalších rokov však musel stále čeliť kritike z rôznych strán – hlavne zo strany Thomasa Younga, ktorého opomenul ako inšpiráciu pri svojej práci. V roku 1828 sa Champollion vydal na jedenapolročnú expedíciu do Egypta, kde mohol priamo na mieste čítať staré nápisy. Jeho zdravie bolo veľmi chatrné, a tak v roku 1832 vo veku 41 rokov zomiera.

V súčasnosti môžete na webe nájsť niekoľko prekladačov, ktoré prekladajú texty do hieroglyfov. Zaujímavé je porovnanie prekladov – každý prekladač prekladá texty trochu inak. Preklady sa líšia nielen grafickým vyobrazením jednotlivých hieroglyfov, ale líšia sa aj množstvom používaných písmen a podobne.

Obrázkové písmo a substitučná šifra

Písmo podobné hieroglyfickému si môžete vytvoriť aj sami – stačí si zvoliť pre každé písmeno iný obrázok a máte svoje tajné písmo. Keďže aj samotné písmená predstavujú obrázky, môžete namiesto nich použiť práve ich. Takto vytvorenú šifru budeme nazývať substitučná. Spôsob kódovania je potom nasledujúci: Do tabuľky si napíšeme písmená našej abecedy (pre zjednodušenie uvádzame klasickú anglickú abecedu, ale nie je problém túto šifru rozšíriť na ľubovoľnú inú). Pod ne si napíšeme náhodne zvolené písmená, musíme pritom dávať pozor na to, aby sa v druhom riadku vyskytovalo každé písmeno len raz (v opačnom prípade by sme mali problém pri dekódovaní).

Ak teraz chceme zakódovať slovné spojenie „Mladý vedec“, postupne budeme vyberať príslušné písmená z druhého riadka tabuľky a dostaneme text „Ashfv ulfle“, pričom rovnako prekladáme písmená s diakritikou aj bez nej:

M	L	A	D	Y		V	E	D	E	C
A	S	H	F	V		U	L	F	L	E

Pri dekódovaní postupujeme naopak – v tabuľke vymeníme riadky a pre pohodlnosť preusporiadame písmená tak, aby boli v prvom riadku usporiadané podľa abecedy:

Pomocou tejto tabuľky si môžete skúsiť dekódovať tento text:
„Flwrfruhsp tyl turxc mduc tpqdc.“

Nevýhodou takýchto kódovaní je, že ak ich budete používať často, tak sú ľahko dekódovateľné. Spomeňte si napríklad na to, ktoré písmená používate najčastejšie. V slovenčine sú to samohlásky a a e. Na základe ich početného výskytu sa dajú ľahko vytypovať obrázky a písmená, ktorým zodpovedajú. Tento spôsob dekódovania sa nazýva frekvenčná analýza. Je založená na tabuľkách frekvencií výskytu jednotlivých písmen v slovách. Ak vieme, že niektoré písmeno sa v zakódovanom texte vyskytuje veľmi často, tak vieme takmer s určitosťou povedať, že to asi nebude písmeno ž alebo ň. Treba si však dávať pozor na to, že na túto analýzu potrebujeme veľký objem dát, pretože v krátkych textoch nemusí byť rozloženie písmen jednoznačné. Veď aj samotné frekvenčné tabuľky boli získané na veľkom množstve rôznorodých textov.

Ďalším oporným bodom pre dekódovanie obrázkového písma, resp. substitučnej šifry sú krátke slová ako napríklad predložky a spojky. Týchto slov nemáme veľa a navyše v kombinácii s kandidátmi na samohlásky veľmi ľahko a rýchlo dokážeme vytipovať kandidátov na jednotlivé slová. Takto dokážeme postupne na základe čiastočne dekódovaného textu obmedzovať množstvo kandidátov na jednotlivé obrázky/písmená a časom dospejeme k správnemu prekladu.

Bezpečnosť tohto šifrovania je malá, hlavne pri dlhých textoch. Ak sa náhodou dostane niekomu do rúk čo i len časť textu a jeho prekladu, tak dekódovanie prebehne už veľmi rýchlo. Ďalšou slabinou je opakovanie význačných slov v textoch. Ak si napríklad všimneme, že sa niektoré slová opakujú príliš často a poznáme oblasť, ktorej sa text týka, môžeme to využiť na dekódovanie.

Morseova abeceda

Ako sme už spomínali, na základe frekvenčnej analýzy sa dá zistiť, ktoré písmená sú v jazyku najpoužívanejšie. Niečo podobné prišlo na um aj Američanovi Samuelovi F. B. Morsemu, ktorý sa zaujímal o to, ako urobiť komunikáciu prostredníctvom telegrafu efektívnejšou. Keďže v tom čase ešte neexistovali frekvenčné tabuľky, urobil to prefíkane – vybral sa do tlačiarne a zistil, koľko sa tam nachádza ktorých písmen. Takto, bez akéhokoľvek výskumu, odhalil princíp rozdielnej frekvencie výskytu jednotlivých písmen (a dokonca i slov). V tlačiarni zistil, že písmeno E sa nachádza v počte až 12 000 kusov, na základe čoho usúdil, že E je v angličtine najpoužívanejším písmenom. Pre častosť jeho výskytu mu priradil veľmi jednoduchý a krátky kód – jednu bodku. Druhým najpočetnejším písmenom bolo písmeno T, ktoré sa vyskytovalo v počte 9 000 kusov. Preto sa mu ušlo druhé najkratšie označenie – jedna čiarka. Potom nasledovalo písmeno A, ktoré sa vyskytovalo v počte 8 000 kusov. Keďže jednoznakové kódy už boli obsadené, dostalo označenie bodka, čiarka. Takto postupne postupoval až k písmenu Z, ktorého našiel len 200 kusov. Toto písmeno dostalo kód bodka, bodka, bodka, čiarka, bodka. Celý súbor dostal nakoniec meno po ňom – Morseova abeceda.

Ak by sme tento kód takto konštruovali u nás na Slovensku, alebo aj v hociktorej inej krajine, tak by sme dostali určite iné poradie výskytu písmen. Podobne uvažovali aj ďalší ľudia, a tak sa Morseova abeceda postupne menila. Súčasná podoba Morseovej abecedy obsahuje niektoré písmená v inej reprezentácii, avšak hlavná myšlienka – zachovať pomer medzi frekvenciami výskytu jednotlivých písmen v jazyku a dĺžkou ich reprezentácie, ostala zachovaná. Súčasná podoba Morseovej abecedy je táto:

Na kódovanie čísel sa používa táto tabuľka:

Ak potrebujete odoslať aj nejaký iný znak, môžete využiť ešte tieto znaky:

Ak by vám ani tieto znaky nestačili, môžete použiť ešte jednu tabuľku pre znaky, ktoré nie sú v angličtine:

S pomocou týchto tabuliek si môžete skúsiť preložiť tento text (lomka / označuje začiatok nového písmena, dve lomky za sebou koniec slova): --/---/.-./..././---/...-/.-//.-/-..././-.-././-../.-/

A ako funguje samotné vysielanie cez telegraf? Vysielanie prebieha v taktoch, ktoré predstavujú základnú časovú jednotku pre dĺžku signálu. Bodka je krátke pípnutie, ktoré trvá 1 takt. Pípnutie čiarky je dlhšie – trvá tri takty. Medzery medzi jednotlivými bodkami a čiarkami majú dĺžku 1 takt. Prestávka medzi jednotlivými znakmi (písmenami) trvá tri takty a nakoniec prestávka medzi jednotlivými slovami trvá 7 taktov. Tento spôsob vysielania umožňuje zvyšovať rýchlosť prenosu správ vyššou frekvenciou a teda kratšími taktami – kto bol rýchlejší, ten dokázal preniesť za daný čas väčšie množstvo správ.

Ak by sme zobrazili Morseovu abecedu ako strom, v ktorom bodkovaná vetva vľavo znamená bodku a čiarkovaná vetva vpravo znamená čiarku, dostali by sme vyššie uvedený obrázok.

Braillovo písmo

Určite ste už počuli o Braillovom písme. Je to písmo určené pre nevidiacich a slabozrakých ľudí. Jeho základom je transformácia písmen, číslic a znakov do bodov, ktoré sú vyrazené do papiera alebo iného média a čitateľ ich identifikuje hmatom. Účelom samotného písma nebolo zakódovať informácie tak, aby neboli čitateľné, ale naopak, transformovať informácie tak, aby boli čitateľné pre istú skupinu ľudí, ktorí ich nemohli spracovať v štandardnej podobe.

Toto písmo vynašiel Francúz Louis Braille, ktorý v detstve prišiel o zrak, vo veku pätnásť rokov. V základnej verzii sa body vyznačujú v tabuľke s rozmermi 2 x 3 znaky. Pozície jednotlivých bodov sú očíslované číslami 1 až 6 podľa priloženého obrázka. Bod je vyznačený tak, že na jeho mieste je vyvýšené miesto. Ak bod nie je vyznačený, papier ostáva na tomto mieste neporušený. Týmto spôsobom je možné priamo zakódovať 2^6 = 64 znakov. Prázdne políčko, na ktorom nie je vyrazený žiaden bod, predstavuje medzeru. Pre potreby rôznych oblastí života (hudba, vedné disciplíny ako napr. matematika) sa však postupne začala vynárať potreba ďalších znakov. Preto sa táto tabuľka rozšírila na 2 x 4 znaky a je schopná obsiahnuť až 2^8 = 256 znakov. Vzhľadom na rôzne potreby špeciálnych znakov v jednotlivých jazykoch, líšia sa aj jednotlivé verzie Braillovho písma.

Zápis Braillovho písma sa robí ručne pomocou špeciálnej doštičky (tzv. pražská zinková tabuľka) s perom (nazývaným aj bodátko), ktorým sa zozadu (zrkadlovo) cez dierky v doštičke vytvárajú v papieri body. Toto písanie je veľmi nepohodlné a pomalé. Na rýchlejšie písanie dlhších textov sa používajú špeciálne písacie stroje. Jedným z nich je aj Pichtov písací stroj, ktorý obsahuje 7 klávesov – 6 pre jednotlivé body a siedmy pre medzeru. Na čítanie Braillovho písma sa používa štandardne ukazovák, pri čítaní informácií v digitálnej podobe sa používa hmatový displej, tzv. braillovský riadok.

Základné znaky Braillovej abecedy sú tieto:

Číslice sú reprezentované písmenami A – J, pričom je pred jednotlivými znakmi vložený symbol pre číslicu.

Martin Hriňák

Hlavné menu

Hľadať