foto: Shutterstock

Martin Komenda: Co se práce s daty týče, je pandemie velmi cenná lekce

Stát chytřerozhovor 7 a více min čtení

Jak se stalo, že se Česko proměnilo z covidového premianta v průšviháře? Odpověď na tuhle otázku budeme hledat ještě dlouho, ale pro mnohé je jedním z jader problému práce s daty. Co si o tom myslí expert z Ústavu pro zdravotnické informace a statistiku, tedy z instituce, která měla data během pandemie pod palcem?

Líbí se vám článek? Sdílejte ho:

Jak se stalo, že se Česko proměnilo z covidového premianta v průšviháře? Odpověď na tuhle otázku budeme hledat ještě dlouho, ale pro mnohé je jedním z jader problému práce s daty. Co si o tom myslí expert z Ústavu pro zdravotnické informace a statistiku, tedy z instituce, která měla data během pandemie pod palcem?

Související článek

Matematické modely předpověděly šíření viru lépe než vláda

Co se stane, když si v počítači vytvoříte model okresního města a do něj pak pustíte náhodné návštěvníky s koronavirem? Vypadá to trochu jako nějaká speciální verze hry SimCity, ale ve skutečnosti to může mít velký dopad na život v následujících týdnech a měsících. Právě takhle vypadá zkoumání pandemie pomocí matematických modelů.

Otevřená data ve zdravotnictví jsou hodně důležité téma – v málokterém oboru se o každém z nás shromažďuje tolik takhle citlivých informací, které se rozhodně nesmějí dostat do nepovolaných rukou. Na druhou stranu na rychlé dostupnosti důležitých informací nesmírně záleží, což dokonale prověřila snad už konečně doznívající koronavirová pandemie. Kdyby měli nezávislí analytici a autoři matematických i epidemiologických modelů od počátku k dispozici všechna potřebná čísla, možná jsme během zimy nemuseli sloužit zbytku světa jako odstrašující příklad a „ostrůvek zkázy a zmaru“, jak Česko nazvali na CNN.

K lidem, kteří o datech ve zdravotnictví vědí hodně, rozhodně patří Martin Komenda. Již před několika lety se stal jednou z hlavních tváří Národního zdravotnického informačního portálu, když šéfoval jeho vývojářskému týmu. V poslední době pracoval jako šéf webového studia Ústavu pro zdravotnické informace a statistiku, instituce, která všechna „pandemická“ data spravuje, řídí a případně uvolňuje k dalšímu využití. Je hlavním autorem odborné zprávy Complex Reporting of the COVID-19 Epidemic in the Czech Republic: Use of an Interactive Web-Based App in Practice, která se zabývá zpracováním koronavirových dat ve webových aplikacích a vyšla na prestižním webu Journal of Medical Internet Research. Setkali jsme se na konferenci Open Data Expo, která se otevřeným datům věnuje tradičně a letos se zaměřila výslovně na nejrůznější aspekty pandemického období.

Zdravotní data jsou ze své podstaty uzavřená – jsou většinou tím posledním, co bychom o sobě chtěli sdělovat. Co to tedy vlastně jsou otevřená data ve zdravotnictví, jak vypadají a jak se s nimi dá pracovat?

To se právě teď ukázalo na pandemii – je to samozřejmě hrozná tragédie pro celý svět, ale také je to obrovská škola, co se práce s daty týče. Najednou tohle dřív opomíjené téma začalo zajímat lidi po celém světě. Ve skutečnosti s otevřenými daty ve zdravotnictví není takový problém, jak by se na první pohled mohlo zdát – jde jen o to je správným způsobem prezentovat a publikovat. Musí se to náležitě vysvětlit, s čímž máme problém dodnes.

Vysvětlit, co publikovaná data představují a jak je interpretovat?

Přesně tak. Má to dvě roviny. Ta první je faktická – musíte vysvětlit, co lidem předkládáte, a mít přitom na paměti, že interpretace nemusí být úplně triviální a data mohou nést jinou informaci, než by se na první pohled mohlo zdát. A druhá rovina se týká množství zveřejňovaných dat a z nich vyplývajících detailů. Když jsou to data na úrovni Evropy, republiky nebo třeba i kraje, je v zásadě všechno v pořádku. Jakmile jdeme na okresní či místní úroveň nebo třeba na jednotlivá zdravotnická zařízení, najednou můžeme mít problém.

Protože už ta čísla mohou být tak malá, že přestávají být anonymní?

Ano. Na tak malém vzorku už by se někdo mohl poznat a to by byl samozřejmě průšvih, protože základem jakéhokoli otevírání zdravotních dat je vždy přísná anonymita. Jenže od jisté úrovně níž ji zajistit stoprocentně nejde. Z toho důvodu jsme také některá pandemická data, hlavně v první vlně, zveřejňovali až s určitým odstupem. Ve chvíli, kdy jsme měli někde v nějaké oblasti jen jednotky případů, jsme to zveřejnit dost dobře nemohli – bylo by to adresné.

Související článek

Data proti pandemii: Praze s očkováním proti koronaviru pomáhá platforma Golemio

Umí interaktivní vizualizované mapy pohybu lidí i aut, ukáže aktuální polohy dopravních prostředků nebo zaplněnost kontejnerů na tříděný odpad. Platforma Golemio, kterou spustilo a provozuje hlavní město Praha, už třetím rokem dokládá, jak můžou data pomoct s životem v hlavním městě. Poslední rok ji ale vytěžil důsledněji než kdy dřív: díky jejímu přispění se po Praze rozvážely vakcíny proti covid-19.

Změnilo se to někde v reálný problém, nebo to byla jen teoretická hrozba?

Právě že to bylo úplně reálné, to je na tom nejhorší. V tom úplně prvním stadiu vnesla epidemie mezi lidi občas vysloveně panický strach a obyvatelé některých vesnic začali na základě kusých informací nakažené aktivně vyhledávat mezi svými sousedy, což je samozřejmě naprosto nepřípustné, z toho by mohl být průšvih jako hrom.

Tohle se jistě dá pochopit. Jenže práce ÚZIS s daty byla dlouhé měsíce terčem kritiky datových novinářů a analytiků, jejichž cílem rozhodně nebylo jakkoli narušovat anonymitu informací. Přesto ani oni nedostali až do září data o regionálních ohniskách. A právě špatná interpretace těchto dat na straně vlády podle nich byla jednou z příčin nezvládnuté druhé vlny. Co si o tom myslíte a proč ta data nedostali?

Těch datových sad byla spousta, ale důvod je stejný – ještě na počátku září byla čísla nových případů tak malá, že zkrátka nebylo možné poskytovat komukoli data na úrovni obcí. Pak čísla začala růst natolik, že bylo možno zveřejňování dat schválit. Ono to samozřejmě nezáleželo na rozhodnutí nějakého jednotlivce, byla to složitá otázka, která se řešila na odborné, ale i politické úrovni. Jinak ta data samozřejmě existovala už předtím, ale dostávali je jen ti, kdo je skutečně potřebovali – krizový management dotčených územně správních celků, vláda a tak dále.

Dobře, ale tím se oslabila odborná kontrola, díky které by se třeba podařilo přesvědčit vládu, že dělá chybu, a její rozhodnutí by se třeba změnilo…

Teď řeknu něco zcela subjektivně za sebe: rozhodně se nepodařilo vše, opravdu vznikla spousta vážných chyb a tyto chyby prokazatelně vedly k dramatickým důsledkům. Na druhou stranu ručím za to, že celý tým odvedl spoustu poctivé práce a pokoušeli jsme se nic nezanedbat. Moc dobře vím, že ÚZIS není mezi datovou komunitou zrovna populární, ostatně i před touhle akcí mě kolegové varovali, že tu možná nebudu úplně populární (konference se zúčastnila řada nezávislých datových analytiků, pozn. red.). Ale mně to nijak nevadí, za sebe mám svědomí zcela čisté a je dobré vyměnit si třeba i nesouhlasné názory.

Kritický moment, který z nás učinil světového průšviháře, podle všeho přišel v září, kdy už se křivka nově nakažených jednoznačně lámala do exponenciály, odborníci na to denně hlasitě upozorňovali (i v několika rozhovorech na našem webu), ale vláda na to nedokázala razantně zareagovat, podle mnohých i kvůli nadcházejícím krajským volbám. Kdybyste měl moc vrátit čas, co byste v tu chvíli udělal jinak?

To je hodně těžká otázka. Jsou tam dva důležité rozměry – tím prvním jsou rozhodnutí vlády, druhým pak morálka obyvatel. Lidé totiž často nedodržovali ani ta opatření, která vláda skutečně vyhlásila. Část zmíněného průšvihu má kořeny právě zde.

No dobře, ale co k tomu vedlo? Na jaře dodržovali skoro všichni skoro všechno. Změnili se tolik lidé, nebo byla na vině komunikace úřadů?

Související článek

Chytrý boj proti koronaviru: když samotná technologie nestačí

Slibným pomocníkem v boji proti aktuální epidemii koronaviru jsou nejrůznější chytrá řešení. Často ale zapomínáme na fakt, že i ten nejchytřejší počítač je jen tak chytrý, jak mu člověk dovolí. A ukazuje se, že v tomto směru máme jako lidstvo ještě velké rezervy.

 

Mám čistě za sebe říct, co bych na odpovědném místě udělal jinak? Dobrá, řeknu to, ale je to opravdu jen můj názor: já bych víc strašil. Netvrdím, že za dodržováním opatření v první vlně stál jen a jen strach, ale jistou pozitivní roli měl. Nemyslím si, že by lidé těm opatřením nerozuměli, jak se někdy tvrdilo – ono jich nebylo nijak moc a byla v zásadě jednoduchá. Takže tohle je moje odpověď – a jedním dechem říkám, že bych na odpovědném místě být nechtěl, je to hrozně nevděčná pozice. V té hře není vítěze, ať uděláte cokoli, je to špatně.

Dobrá, strašit. Ale čím lépe strašit než reálnými informacemi o tom, jak na tom jsme a do čeho se řítíme? Neměli tedy pravdu ti analytici, kteří chtěli zářijová data otevřít a všem ukázat, jak se věci doopravdy mají?

Snad můžu hovořit za celý ÚZIS, když řeknu, že jsme rozhodně data úplně netajili, klíčoví hráči je měli celou dobu na stole. A zároveň jsme prostě chtěli zabránit tomu, že by data ukázala na někoho konkrétního, což je někdy vážně až překvapivě jednoduché, když se zkombinuje několik údajů typu pohlaví, věkové skupiny či obce. Když se za tou dobou dnes ohlédnu, vlastně si nejsem jistý, jestli by se něco změnilo, kdyby ta data byla úplně veřejná. Osobně si to vlastně nemyslím.

Proč?

Sám jistě vidíte, že způsobů, jak data interpretovat, je vždy víc. Každý si svou interpretaci jistě nějak obhájí, ale já si nemyslím, že by všechny výklady byly správné. Zpravodajské servery mají opravdu velkou sílu a neexistuje žádná záruka, že by nezvolily špatný způsob interpretace. A kdyby se výklady navzájem tloukly, mohlo být informační zmatení rázem ještě podstatně větší.

Související článek

Raul Rikk: Digitalizovaný stát Estonsku pomohl ustát koronavirovou krizi

Jak se bránit obchodům, které podle kupeckých počtů vypadají výhodně, ale ve skutečnosti představují bezpečnostní riziko do budoucna? Proč je digitální společnost při zvládání koronavirové pandemie úspěšnější než ta tradičněji zaměřená? A do jaké míry mohou být riskantní elektronické volby? Více o tom říká Raul Rikk, který v Estonsku odpovídá za kybernetickou bezpečnost.

Jeden známý datový vědec mi v září říkal, že by autoři matematických modelů ohromně ocenili, kdyby data byla lépe roztříděná – kdyby věděli, že tolik a tolik nakažených pochází ze zabijačky, tolik a tolik z fotbalového zápasu a podobně. Mohli by pak do modelování tyhle informace zapojit, což by usnadnilo návrhy konkrétních opatření na lokální úrovni – dejme tomu zakázat zabijačky jen v okresních městech nebo v místech, kde je železniční uzel. Zapomeňte na nutné politické důsledky podobných návrhů a zkuste mi odpovědět čistě hypoteticky: má ÚZIS k dispozici data, která by v ideálním světě mohl „modelářům“ dát k práci?

Má a dokážu si představit, že je odborníci skutečně k modelování dostanou – ovšem po registraci, nikoli v otevřeném režimu. Vy se jako odborník zaregistrujete do nějakého seznamu, a pokud vás odpovědný úřad schválí, pak data čistě pro pracovní potřebu dostanete. A v našich datových sadách skutečně spoustu zajímavých informací najdete, i když ani tady se samozřejmě nelze dostat k identifikaci konkrétních lidí. Ale zároveň si uvědomme, že se ten systém budoval za chodu pod velikým tlakem, takže si nejsem jist, zda mají všechna data pro podobný výzkum optimální podobu. Ale v ideálním světě si to dokážu velmi dobře představit.

Líbí se vám článek? Sdílejte ho:
link odkaz
Reklama