foto: iStockphoto.com

Správná interpretace dat je klíč. Mohou na ní záviset i životy

Věci chytřekomentář 5 min čtení

Korelace neznamená kauzalitu. Klasická poučka, kterou každý slyšel na hodinách statistiky, je dnes relevantnější než kdy jindy. Při koronavirové pandemii totiž vědci a státy intenzivně analyzují big data související s šířením viru a vyvozují z nich důsledky, které mají velký vliv na život nás všech.

Líbí se vám článek? Sdílejte ho:

Korelace neznamená kauzalitu. Klasická poučka, kterou každý slyšel na hodinách statistiky, je dnes relevantnější než kdy jindy. Při koronavirové pandemii totiž vědci a státy intenzivně analyzují big data související s šířením viru a vyvozují z nich důsledky, které mají velký vliv na život nás všech.

Související článek

Pokud data neumíte správně interpretovat, jsou vám k ničemu, říká expert na Big data z T-Mobile

V aktuální situaci se o údajích o pohybu lidí v poslední době hovoří daleko častěji než dřív. Poměrně velkou roli hrají i údaje od mobilních operátorů. Jak se sbírají? Jak je využít pro získání maxima správných informací, a přitom neprolomit jejich anonymitu? A proč je při interpretaci velkých dat důležitá etika?

Ze sledování zpráv o současné epidemii koronaviru víme, že v některých státech má epidemie mnohem horší průběh než ve státech jiných. Vědci teď přišli s teorií o vlivu očkování proti tuberkulóze na odolnost vůči koronaviru. V zemích, kde je proočkovanost proti tuberkulóze vysoká, totiž není vývoj epidemie tak dramatický. Nyní se výzkumníci snaží zjistit, jestli očkování proti tuberkulóze opravdu ovlivňuje odolnost populace a pokud ano, tak proč.

Snídaňové sušenky a předpověď počasí

Tato zpráva připomíná problém vztahu mezi dvěma nebo více jevy při analýze big dat. Velké společnosti a vědecké instituce mají dnes obrovské databáze dat, ve kterých hledají, jestli náhodou mezi některými z nich neexistuje nějaký vztah. Známým příkladem je souvislost mezi těhotenstvím a změnou nákupních zvyklostí. Jeden americký řetězec analýzou velkých dat o nákupním chování zákazníků zjistil, že těhotné ženy nakupují ve zvýšené míře určitou kombinaci výrobků, které na první pohled s těhotenstvím nijak nesouvisely.

Řetězec tohoto zjištění využil k tomu, že ženám, které tyto výrobky koupily, nabízel speciální kupony na další věci související s těhotenstvím a péčí o dítě. Jiný americký řetězec dospěl analýzou dat k tomu, že jeho zákazníci nenakupují před blížícím se hurikánem jenom baterky, což by ostatně nebylo tak překvapivé, ale zásobují se i snídaňovými sušenkami. Díky tomu navýšil vždy před větrnou bouří zásoby sušenek na skladě.

Když potřebujeme vědět proč

Obchodní řetězce nepotřebují vědět, proč se lidé nějak chovají, ale jak se chovají. Pro předpověď nákupního chování zákazníků jim stačí vědět, že se tak děje. K analýze velkých dat dochází i ve vědě, často v medicíně. Pokud by se ale vědci spokojili jen se zjištěním, že se něco děje a nezkoumali proč, mohlo by dojít k poškození pacientů. Souvislost jevů se totiž může dříve nebo později ukázat jako falešná.

Související článek

Analýza Twitteru zachraňuje životy. Lékaři bez hranic využívají sociální síť ke zmapování válečných zón

Neziskovou organizaci Lékaři bez hranic zná celý svět – v náročných podmínkách a často s nasazením životů pomáhá lidem ve válečných oblastech, při živelních katastrofách a dalších krizových situacích. S digitálním stratégem její české pobočky Janem Böhmem jsme si povídali o tom, jak důležitou roli hraje při poskytování pomoci moderní technologie, konkrétně analýza příspěvků na sociálních sítích.

V jedné studii zabývající se úmrtností pacientů na zápal plic bylo analýzou dat zjištěno, že pacienti s astmatem nejsou tak ohroženi úmrtím na zápal plic ve srovnání s těmi, kteří astmatem netrpí. Protože dosavadní poznatky byly opačné, zjišťovali vědci, kde se stala při analýze dat chyba. Zjistili, že algoritmus vyhodnocující data dospěl k falešnému vztahu dvou jevů. Astma nebylo ve skutečnosti příčinou vyšší úmrtnosti na zápal plic. Nižší úmrtnost pacientů s astmatem byla způsobena tím, že pacienti s astmatem dříve, než ostatní pacienti zaznamenali problémy s dýcháním, takže vyhledali dříve lékařskou pomoc a léčba zápalu plic tak začala dříve.

U některých analýz ale není tak snadné odpovědět na otázku, jestli se náhodou nejedná o falešný vztah. Existují například algoritmy, které na základě dat o životních funkcích pacienta předvídají jeho brzkou smrt. Analýzou dat bylo zjištěno, že existuje vztah mezi určitými parametry životních funkcí a úmrtím, který není často jasný ani samotným lékařům. Stejně jako u předchozího případu s astmatem a zápalem plic se může jednat o falešný vztah.

Fatální důsledky špatné analýzy

Rozdíl mezi obchodníkem a lékařem je v tom, že když se obchodník bude řídit falešným vztahem mezi nakupovaným zbožím a těhotenstvím nebo bouří, hrozí mu maximálně jen to, že někteří zákazníci dostanou slevové kupony na zboží, které nepotřebují, nebo že bude mít obchodník sklady přeplněné věcmi, které nepůjdou na odbyt. Jestliže se ale lékař bude řídit falešným vztahem mezi dvěma jevy, mohou být důsledky pro pacienta fatální.

Představme si, že by vztah mezi astmatem a úmrtím na zápal plic nebyl tak evidentně nesprávný jako v předchozím případě. Lékaři by pak nevěnovali astmatickým pacientům se zápalem plic takovou pozornost, protože podle dat by u nich existovalo nižší riziko úmrtí na zápal plic. Tento přístup by v důsledku neadekvátní péče vedl k úmrtí mnoha lidí.

Související článek

Příliš digitalizované nemocnice?

V půlce března si Češi pod tlakem vládních omezení pomalu začali uvědomovat, že situace kolem koronaviru je skutečně vážná a nehodí se ji podceňovat. A do toho tři brněnské nemocnice ohlásily okamžité zrušení většiny výkonů kvůli hackerskému útoku. Brno naštěstí dočasné omezení péče zvládlo, na obnově provozu se ve velké míře podíleli dobrovolníci. Ale co to znamená pro budoucnost zdravotnictví?

Ve druhém případě by falešný vztah mezi hodnotami životních funkcí vedl k ukončení léčby u pacientů s hodnotami, u kterých je analýzou dat předvídáno brzké úmrtí. Toto rozhodnutí lékařů by vedlo skutečně k úmrtí pacienta, ale ne kvůli hodnotám jeho životních funkcí, ale opět kvůli nedostatečné péči zdravotníků.

Použití datové analýzy v některých oblastech lidské činnosti, a zvláště pak v medicíně, vyvolává řadu právních otázek. Například, je lékař odpovědný za dodržení zásady lege artis, pokud se výstupy datové analýzy bude řídit, či naopak, pokud se jimi řídit nebude (jestliže např. datová analýza vyhodnotí určitý způsob léčby jako nejúčinnější)? Je možné zaměstnanému lékaři nařídit respektovat výsledky analýzy, a pokud ano, tak za jakých podmínek?

Protože se u datové analýzy nemůžeme spokojit s tím, že vztah mezi daty existuje, ale musíme řešit i proč tomu tak je, měly by být výsledky analýz důkladně testovány, aby se zabránilo falešným korelacím.

Líbí se vám článek? Sdílejte ho:
link odkaz
Reklama