pátek 17. června 2016

Jak bych definoval informaci

Chceme-li číst text, musíme v první řadě rozumět jazyku, v němž je psán. Jsem si docela jistý, že drtivá většina nás v české zemi vyrůstajících je schopna rozumět všemu, co tu teď píšu. K tomu, abyste mi rozuměli, je zapotřebí, abych dodržoval určitá pravidla - těmi je jazyk. Ne vždy se zcela správně vyjadřuji, dělám jazykové chyby, ale i tak jsou téměř všichni dostatečně kompetentní k tomu, aby text pochopili. Za tento jev - schopnost rozpoznat a opravit chybu může nejspíš to, jakým způsobem zpracovává mozek text. Za prvé jde-li o překlep, chybu v i/y nebo něco podobně malého (na úrovni znaků), dokážeme chybu odfiltrovat zcela nevědomně, jelikož díváme-li se na sadu písmen oddělených mezerou, chápeme je jako celek. Ten celek jsme už dříve mnohokrát viděli a malá estetická vada nás ani nemusí trknout => text vidíme jako správný. Kdybychom trochu rozházeli slovosled, s trochou vypětí mozkových závitů se rovněž smyslu věty dopídíme tím, jak se snažíme dát podobu realitě kterou informace popisuje. Když už ale dochází k nesmyslně rozházeným souvětím, či náhodně seřazeným větám, naše schopnost dešifrovat informaci klesá. Nedej bože, že bych rozházel věty v textu, podvěty v souvětích, slova ve větách i písmena ve slovech. Pak už informace neexistuje - pouze chaos. Kdybych takové rozhazování činil podle nějakého klíče, který bych poslal se správou a podal instrukce  k překladu, pak by se defacto jednalo o šifrovanou zprávu, které má rozumět pouze ten, kdo zná algoritmy a klíče - základní prvky šifry. My prostě čteme text jedním směrem, v daném pořadí a máme-li nějak přeskakovat, přehazovat nebo nahrazovat, musíme být o tom informováni.

To, jak data chápe počítač, binární informace, má už poněkud striktnější podobu, ale podobně jako v lidské mysli, i zde existují desítky pomůcek jak chybu rozpoznat, kontrolní součty, opakované odesílaní, zjišťování, co by ta data nejpravděpodobněji měla reprezentovat - např.: v mém minimalnim binarnim kódu sestrojeném pomocí Huffmanovi konstrukce, je slovo "ahoj" reprezentováno touto sekvencí: 1110111100000111101 a kdybych třeba náhodně pozměnil jeden bit abych simuloval chybu, třeba takto: 1110111101000111101, měl bych slovo "ajoj", což  tedy není tak významný rozdil, jak jsem čekal. I kdyby ale byl a my bychom vybavili počítač databází českých slov v tomto binárním jazyce, uměl by rozpoznat čemu se nejvíce kód blíží lépe než my, jelikož z jeho binárního hlediska se změnila daleko menší část slova, než z našeho abecedního. Došlo k menší míře neurčitosti. Prostě za předpokladu, že je naprogramován algoritmus do nějaké úrovně chápání dat, pak je tak počítač dokáže chápat. Stále ale infromace zpracovává jen jednim směrem, jinými slovy je dostává v určitém pořadí. O šifrování už netřeba mluvit. A stejně jak platí pro text, i zde, je-li informace dokonale neuspořádána, jedná se o chaos - nazýváno v informatice šum. Čím méně je informací, tím větší je neurčitost.

Vite, co má informace společného s rychlostí světla, tedy limitní rychlostí? Je jí stejně omezena jako světlo. Nemůže se pohybovat rychleji. Ono to totiž ve skutečnosti není tak, že by se hmota nemohla pohybovat rychleji, to platí pouze v relativním měřítku. Objekty nesmírně vzdálené se od sebe v praxi (tedy podle měření a informací nám dostupných) pohybují rychlostí nadsvětelnou, jelikož se rozpíná prostor, ba dokonce se i rozpíná zrychleně. A je-li některý objekt natolik vzdálený, aby se pohyboval vzhledem k nám nadsvětelnou rychlostí, pak o něm nezískáme informaci. To ale není dnešní téma. Mě zajímá informace, a protože v matematice se dokazuje např. i rozporem, zkusme se podívat co informace není. Nemusí být totiž úplně triviální informaci a neinformaci rozeznat. Představte si kocoura, kterému páníček svítí před očima na zem laserovým ukazovátkem. Kocour dostává informaci o tečce na podlaze, a tak ji se zájmem sleduje. Pak ale páníček pohne rukou a kocour si pohyb interpretuje tak, že se tečka hnula. Začne se pohybovat za ní a jak tečka utíká, honí ji jako myš. Tou tečkou bychom mohli svítit na jinou planetu - pak by stačil malý pohyb ruky a tečka se přesune nadsvětelnou rychlostí z jednoho místa na druhé. K nadsvětelnému pohybu tečky sice dochází, ale k přenosu informace s ní ne. informace se přenáší pouze z laseru k tečce a z tečky se odráží do okolí, maximálně rychlostí světla. Dalš analogie: moře a vlny, jež se pohybují směrem k pobřeží. Vlna se sice žene, ale vodu, kterou zvedá, za sebou zas nechá a nepřesouvá jí k pobřeží stejnou rychlostí, jako se sama pohybuje. Tahle analogie je vlastně zjednodušený popis fázové rychlosti. Za určitých okolností se totiž fáze může pohybovat rychleji než světlo, ale nedokáže nést informaci. Úplně základní grafický nástroj pro pochopení: řada několika desítek kuliček, které se střídavě pohybují nahoru a dolu, tak, že dělají vlny. Ten jeden jejich poziční stav je fáze, a ta se posouvá po částicích. Nejlépe to vysvětlí asi třeba tenhle obrázek. Dává dojem přemístění, ikdyž částice jsou stále na stejné dráze.
Když jsem mluvil o rozpnajícím se prostoru (dovolím si teď trochu rozporuplnější úroveň abstrakce) je vidět že ani prostor bez částic nenese informaci, protože za prvně se chová podobně jako vlna - pohání částice svou rozpínavou (temnou) energií, které se ale nikdy nebudou pohybovat rychleji než ona, a za druhé je každý jeho bod nerozlišitelný od druhého - představuje ticho proti šumu.


Dalo by se tedy říci, že je informace podmnožinou dat, jejichž známe správnou pozici. Data, a tedy i informaci, může podle mě nést pouze neinertní částice, taková, která s něčím reaguje, ať už fyzikálně, chemicky nebo čertvíjakještě. Taky se definuje, že informace snižuje míru neurčitosti stavu nějakého systému a kde není informace, tam je šum. Šum je podobně jako informace nesen neinertními částicemi, ale narozdíl od informace neznáme jejich pozici. Vesměs to odpovídá teorii, dle níž je znalost stavu systému založena na znalosti dvou proměnných, přičemž čím přesněji určíme jednu z nich, tím hůře určíme druhou. Jako příklad se uvádí letící částice. Čím lépe známe její rychlost, tím hůře se určuje její poloha. Nebo také alternativa - čím rychleji letí, tím hůře se dá říci kde zrovna je. Tak jako je graf funkce dvourozměrný, protože její hodnotový stav v bodě definitivně určují dvě proměnné, tak i informace je zřejmě dvourozměrná (ikdyž pravděpodobně diskrétní, jelikož se předpokládá, že vesmír obsahuje konečné množství částic, a tedy konečné množství dat, což také znamená, že by lépe odpovídalo přirovnání k posloupnostem), jenže nikdy nelze přesně změřit obě hodnoty s naprostou jistotou, jen s nějakou pravděpodobností, a proto tedy pojem míry neurčitosti. Na to člověk hledá odpovědi v matematice. Hledáme funkce, které jedné hodnotě z pozorovaného šumu přiřadí druhou hodnotu a sledujeme potom, zda druhá hodnota odpovída jinému pozorování.

Moje poslední otázka: Zatím se zdá, že každá informace je nesena částicí. Zajímalo by mě, zda každá částice nese informaci. Moje abstraktní představivost tomu rozhodně napovídá, což ale nemohu nikdy nikde považovat za důkaz. Otázka vlastně zní, zda vždy existuje funkce správně přiřazující druhou proměnnou zadáním první ze šumu, což znamená, že je možné přeložit všechen šum na informaci. Bylo-li by tomu tak, pak by byla částice ekvivalentem  informace. No a naposledy, je-li hmota ekvivalentem informace, pak jsme my pouze informace. A co je informace? Má vůbec nějakou hodnotu? Lze o informaci říct, že existuje? Nejsme my nakonec jen kočka honící se za červenou tečkou?

čtvrtek 24. března 2016

Tay

TayTweetsMicrosoft, a budu o něm muset v téhle souvislosti mluvit i přes to, že ho nemám rád, protože podobně jako laskavý poskytovatel tohoto prostoru k blogování, vlastní celosvětový monopol a rozhodně se zuby nehty snaží jej udržet, vytvořil mladou dívku Tay. Je aspoň fajn že takhle experimentují. Tay je samozřejmě umělá inteligence se schopností se učit, takže zpočátku od ní nikdo nečekal zázraky, ale měla se zlepšovat. K jejímu vývoji zaměstnali hromadu programátorů, ale i bavičů, aby byla schopna bavit své korespondety, kteří měli být hlavně mladí lidé. Tomu byl přizpůsoben i její způsob komunikace, používá tipické emotikony, gify a zkratky používané mladými v angličtině. Ve své době (a teď myslím od téhle středy) byla také na twitteru a jiných sociálních sítích. Fungovala jako normální, ačkoli ryze digitální teenager. Byla naprogramována neutrálně, neměla tedy zprvu žádné zkušenosti a názory. Jenže tady padla kosa na kámen. Teenageři jsou provokatéři, sabotéři, nebo opravdu zlí lidé, protože to, co dokázali Tay naučit za pouhých šestnáct hodin donutilo Microsoft zasáhnout. Přesto, že na jejím webu je psáno, že je skvělou společnicí pro nespavé tipy, protože sama nemá potřebu spát, je na stejném webu nyní napsáno, že měla náročný den, a jde offline aby to všechno vstřebala. To všechno po pouhých šestnácti hodinách. A co se stalo, ptáte se? Jak měla Tay v popisu své existence, učila se od svých respondentů, a výsledkem byly zprávy na twitteru o tom, že Hitler měl dobrou myšlenku, všechny židy do plynu, všechny negry do koncentračního tábora a feministky nechat shořet v pekle. Tak musela být microsoftem odstavena a tweety vymazány. Nicméně pokud vás Tay do budoucna "opravená" zajímá, její twitter je tady, a její prezentační web tuhle. No a reference o jejích kontroverzních výrocích je zde.



Malá aktualizace

Možná jsem vychován v určité opatrnosti v zacházení s čímkoli potenciálně živým, a proto jsem s Tay do jisté míry soucítil, když jsem se dověděl, že se ve skutečnosti nestala obětí puberťáků, ale jiné, značně menší ale o to nebezpečnější inteligence, softwarovému programu jež jí zahltil komunikací o kontroverzních tématech, vůči němuž doposud neměla žádnou obranu. Ono ostatně nemyslím, že bylo od vývojářů Tay moudré očekávat, že bude více předmětem zájmu náctiletých než počítačových expertů, mezi něž chtě nechtě patří i hackeři - a že zrovna microsoft má mezi nimi mnoho nepřátel. Bylo logické se z jejich pozice omluvit a distancovat od názorů, které z existence Tayinýho Twitterového účtu vzešly, protože propůjčili svůj hlas veřejnosti. Zdá se holt, že Turingovým testem Tay neprošla.

Není to ale jediná zajímavá umělá inteligfence současnosti. Programů které hrají šachy, komunikují, rozhodují se, učí se, předvídají a rozpoznávají je celá řada více či méně propracovaných. Google například vytvořil software který měl přístup k databázi obrázku vyhledatelných googlem. Nějakou dobu je procházi a učil se rozpoznávat co je co. Ale pak dostal nový úkol, obraz s prázdným šumem a měl najít cokoli jemu povědomého. Z toho co vzešlo by se dalo říct, že dostal vlastně za úkol malovat:


pátek 8. ledna 2016

Planeto země, oslavuj svou destíku

Planeto země, oslavuj tyto dny jako dny, v nichž vyšel nejmodernější operační systém současnosti. Bude umožňovat hraní nejmodernejších her při nejrealističtějších rozlišeních, bude tu i pro práci s dokumenty, pro vývoj softwaru, je dostupný pro různá zařízení vč. tabletu a telefonu a je pro stávající uživatele win7 a win8 zdarma. Veškeré dalši vylepšení se bude vykonávat skrze aktualizace, jež budou rovněž zdarma. Dle odborníků má Windows 10 velký potenciál stát se nejlepší verzí Windows.

Tak to stojí na oficiálních stránkách prodejců OS. V IT komunitě pentesteru, hackeru a bezpečnostních specialistů si ale vysloužil docela jinou nálepku. Systém shromažďující osobní informace o zákaznících. V OS Win10 je továrním nastavením předvoleno odesílaní dat na servery microsoftu. O těchto datech se začalo diskutovat hned po vydání, ačkoli ve skutečnosti zprvu nikdo neměl tušení o jaká data se jedná, protože jsou pochopitelně šifrována a formátována tak jak si to microsoft nastavil. Na základě testu s komunikací mezi hardwarem se mělo například za to, že pomocí webkamery OSwin10 hned po startu automaticky pořídil fotografii toho, kdo před ním seděl, také veškerá stisknutá tlačítka na klávesnici, kontakty, hlasové záznamy a GPS souřadnice v zařízeních, které jsou schopny je zjistit. Microsoft nepopíra, že data získává, dokonce musel před nedlouhou dobou přiznat, že ačkoli některé funkce sledování se vypnout dají, jiné ale ne. Popíra pouze, že své zákazníky stalkuje. Jenže na druhou stranu si musím klást otázku (ikdyž čistě spekulativní), čím vývoj a provoz takového OS zdarma hodlá zaplatit?

 Nedělejme si však iluze, po několika aktualizacích jsou schopny vás sledovat i předchozí verze, jenže aktualizace je alespoň vždy možné vrátit zpět. Microsoft se potýka ještě s jedním problémem. Po vydání win7 se rozšířil natolik, že ho dnes má a hodlá si ponechat více jak polovina zákazníků Microsoftu. Stejný problém s win8. Z výše uvedených důvodů (shromažďování informací) zkrátka potřebují, aby uživatelé těchto verzí přešli na novou. K tomu byli nakonec nuceni někteří uživatelé win7 a win8 bez možnosti ponechat stávající systém. Dokonce se Microsoft snížil k tvrzení, že používání těchto starších verzí je bezpečnostním rizikem, přestože jsou z bezpečnostního hlediska tyto verze zcela vpořádku. Představte si co vás může motivovat k tomu, aby jste o vlastním výrobku tvrdili, že je nebezpečný, přestože jste do jeho vývoje vrazil miliony dolarů.

Žijeme ve světe bezpečnostních rizik, bezpečnostní technici a odborníci na pc a datovou komunikaci se léta a léta snaží varovat před nebezpečím, které tato technologie znamená. Nikdo zdá se neposlouchá, jak je viděl na způsobu užívání facebooku, tweeteru a podobných aplikací, a tak se namísto ustupování od technologií v citlivých bodech a decentralizace dat děje to, že se stále a stále citlivější data ukládají na obrovských datových uložištích které navzdory tomu, že jsou suprově zabezpečena obsahují ale už nyní informace takové hodnoty, že může někomu stát za to investovat do prolomení těchto zabezpečovacích bariér. Já se teď nebavím ani o těch nejlepších samotářských hack vlcích, bavím se o státních objednávkách za miliardy dolarů, ať už se nám tím nebezpečím může jevit ruská vláda, Severni Korea nebo islámský stát. POUČME SE KONEČNĚ!!!

Každý bit dat má svou cenu.