Datař čelí realitě

Datařské bajky z kapsy strejdy Jelena

Ono se říká “žijeme v informační společnosti”, v praxi to znamená, že žijeme ve společnosti, která je víc informační, než byla před deseti lety, před rokem, dokonce víc, než byla předevčírem. Zapneme počítač a jsme zaplaveni informacemi, daty, filmy, hudba, knihy a fotka toho, co měla kamarádka spolužáka ze střední k obědu, od toho nás dělí nemnoho kliknutí myší. A bude toho přibývat, dokud se nějakému fašistovi nepodaří prosadit regulaci internetu. A tady přichází otázka, máme-li víc informací, máme i větší znalost o světě okolo sebe?

Ve své profesionální praxi tvůrců geoinformačních systémů pracujeme s daty, které popisují jisté skutečnosti, fakta. Na druhém konci drátu máme nějakého uživatele, kterému se snažíme zprostředkovat konkrétní znalosti prostřednictví dat, kterými se snažíme popsat určité jevy. Záměrně neříkám realitu, skutečnost. Protože stejně jako když malíř kreslí louku, nemůže namalovat každou buňku každého stébla trávy, nemůžeme my do svých diskrétních relačních struktur bezztrátově převést věškeré nuance spojité reality. Když jsem nastoupil na UHUL, rád jsem se pohoršoval nad jistými strukturami v datech, které jsem pokládal za surový kopanec do gonád databázistických dobrých mravů. Odpovědi typu “ale víš, on ten les, to je organická záležitost, to roste osmdesát roků a abys věděl, šišky na jedli taky nejsou jedna jako druhá, nedá se to snadno nacpat do tvých hranatých tabulek” u mě dokázaly způsobit krátký, ale intenzivní záchvat běsnění. Dneska, poté co jsem pár věcí sám taky škaredě ohackoval už se tolik nečílím.

Mezi jevem a daty, která jej popisují probíhá generalizace. Podle mých zkušeností, přes zdánlivou triviálnost, je generalizace nejobtížnější, nejkomplexnější disciplínou. Popravdě, je to jedna z mála úloh, u kterých připouštím, že je nelze zcela automatizovat. Stejně jako kartograf, který připravuje svoje omalovánky, rozhoduje, co je důležité a co se zahodí, my při přípravě datového modelu rozhodujeme, co je natolik důležité, aby si to zasloužilo vlastní chlíveček v tabulce, nebo dokonce celou tabulku a co je marginálie. Snažíme se nacpat co nejpřesnější popis jevu do co nejmenšího a co nejpřehlednějšího celku.

Já zastávám názor, že datová struktura by měla vycházet z logiky problému, data popisující hierarchické problémy by měly být ukládány do hierarchických struktur a tak dále. Aplikace by pak měla plně korespondovat se strukturou dat. Dovedu-li to do důsledků, pokud chceme kvalitně zpracovat data k nějaké problematice, nestačí nám jen naše technické know-how, ale potřebujeme se vybavit i, nikoliv jen povrchní, znalostí popisované problematiky. Když budu pracovat s daty katastru, neobejdu se bez znalosti vztahů popsaných v datech. Pokud budu připravovat data k ochraně přírody, potřebuji vědět, jaké jsou ZCHŮ, co je ÚSES a tušit, ve které vyhlášce najdu, jak mají být široká ochranná pásma. Bez těchto znalostí nepřipravím trvanlivé a elegantní řešení, ale budu vytvářet nabubřelou obludu, škaredého mutanta, co má tři nohy a z toho dvě na zádech.

Takový by byl ideální stav, nicméně často pracujeme s daty, jejichž struktura je nějakým způsobem arbitrárně ovlivněna zvenčí. Typicky jsou to právně závazná data, která vychází z požadavků kladených legislativou. Tady máme potom další zdroj nějakých pravidel, vazeb, do kterých musíme naše data vměstnat. To však není vždy možné udělat bez větších či menších kompromisů, obvykle na úkor elegance výsledku. Mě osobně to vede ke snaze to mít na své straně co nejčistší, on binec, ten se nakonec nějak udělá sám.