zdroj: T-Mobile

Pokud data neumíte správně interpretovat, jsou vám k ničemu, říká expert na Big data z T-Mobile

Věci chytřerozhovor 7 a více min čtení

V aktuální situaci se o údajích o pohybu lidí v poslední době hovoří daleko častěji než dřív. Poměrně velkou roli hrají i údaje od mobilních operátorů. Jak se sbírají? Jak je využít pro získání maxima správných informací, a přitom neprolomit jejich anonymitu? A proč je při interpretaci velkých dat důležitá etika?

Líbí se vám článek? Sdílejte ho:

V aktuální situaci se o údajích o pohybu lidí v poslední době hovoří daleko častěji než dřív. Poměrně velkou roli hrají i údaje od mobilních operátorů. Jak se sbírají? Jak je využít pro získání maxima správných informací, a přitom neprolomit jejich anonymitu? A proč je při interpretaci velkých dat důležitá etika?

Související článek

Ulice měst jsou stále prázdné. Doma zůstává čím dál více lidí, ukazují čerstvá data z Atlasu mobility

Kvůli koronavirové pandemii zůstáváme i nadále raději doma a pokud nemusíme, nechodíme ani do práce. Ukazují to nová čísla z Atlasu mobility, který pracuje s anonymizovanými daty operátora T-Mobile.

Data o pohybu jsou klíčová pro řadu velkých projektů. Nejde přitom jen o Atlas mobility, společnou aktivitu Vysoké školy báňské a T-Mobile, který zveřejňuje údaje o ztichlých českých městech, ale například také o celoevropský projekt C-Roads, jehož cílem je zajistit mnohem komplexnější informace o provozu na silnicích, než to zvládají dnešní navigační systémy, včetně například informací o pohybu vlaků nebo hasičských vozů. Role mobilních operátorů je v takových projektech naprosto klíčová. Jak se ale vlastně s takovými daty pracuje? A jak je při tom zajištěno naše soukromí? Na to jsme se zeptali Lukáše Kovárníka, který má oblast big data na starosti v T-Mobile.

Mluvíme spolu v době, kdy v ulicích není ani noha, dálnice jsou – krom hraničních přechodů – nebývale dobře průjezdné a všichni čekají na čísla o tom, jak se doprava utlumuje. Jak může mobilní operátor takové věci měřit?

Já bych to téma rozdělil – jedna věc je intenzita dopravy, něco jiného je ale intenzita mobility obecně. Intenzita dopravy je terminus technicus. Lze ji měřit různými způsoby, například pomocí kamer nebo senzorů na vozovce, což běžně dělají správci komunikací. Pak je tu moderní způsob, který ve spolupráci s T-Mobile využívá Ředitelství silnic a dálnic, kdy se získávají tzv. floating car data. Jde o data vozidel, která se pohybují na páteřních komunikacích, získávaná pomocí GPS, a ŘSD tak zjišťuje aktuální stav na páteřní síti komunikací. Mobilitu obecně lze pak měřit pomocí anonymizovaných dat o pohybu SIM karet.

Co se s těmi daty následně děje?

Floating car data neboli FCD lze s údaji o pohybu SIM karet neboli cellular floating car data (CFCD) smíchat, čímž je možné získat velmi cenný robustní zdroj informací. My jsme tenhle způsob využití vyzkoušeli v projektu C-Roads, kde se testuje kooperativní komunikace vozidel. Jedná se o pilotní projekt, ve kterém by penetrace dat nebyla příliš vysoká, v T-Mobile jsme se ovšem rozhodli ji tímto způsobem zvýšit. Zvýší se tak i přidaná hodnota celého projektu nejen technologicky, ale i věcně – máme lepší představu, co se na páteřní komunikační síti děje, a testujeme i jiná data než GPS.

Související článek

Superpočítač v kapli předpovídá vývoj klimatické krize a vylepšuje aerodynamiku aut

Superpočítač MareNostrum 4 má výkon jako čtyřicet tisíc stolních počítačů a je nejvýkonnějším strojem tohoto typu ve Španělsku. Jeho výpočetní výkon umožňuje uskutečňovat nejrůznější simulace od činnosti srdce přes prognózy průběhu klimatické změny až po ekologické katastrofy. A využívá ho i automobilka SEAT k vylepšování vlastností svých vozů.

Chápu; tak získáte data o intenzitě dopravy. Jak ale vypadá měření mobility? Je přeci rozdíl mezi počtem vozidel na silnici a množstvím lidí, kteří se v nich přepravují…

Ano, vezměte si například obyčejný autobus. Z hlediska intenzity dopravy je to jedno vozidlo, které ovšem může přepravit desítky lidí. To už žádná GPS nezměří. Zato my dokážeme přesun lidí z jednoho místa na druhé změřit bez problémů. Dokážeme zjistit, jak se mobilita v Česku mění například v závislosti na současných událostech, ale samozřejmě i jindy.

K tomu se nabízí využít několik zdrojů dat – SIM karty, detektory Technické správy komunikací, flotilová data z aut s příslušnou výbavou. Do C-Roads proudí tohle všechno najednou a vy to potom třídíte a zpracováváte?

T-Mobile v projektu C-Roads vytváří několik usecasů. Jeden z nich, „traffic jam ahead“, zpracováváme pomocí fúzí GPS dat z flotil a k nim přimícháváme data mobilního operátora, tedy naše vlastní. Využíváme pouze tyto dva zdroje a na jejich základě měříme vznik kolon a případná zpoždění. A ještě jedna věc je důležitá: neměříme samotnou intenzitu mobility v určitém místě silnice, ale vyhodnocujeme konkrétní situace, třeba zpoždění nebo délku kolony. Kromě toho se snažíme identifikovat místa, kde za určitého počasí roste nebezpečí. Abychom to dokázali, nakupujeme meteorologická data.

Takže se vaše výstupy už pohybují na úrovni informací, ne pouze čistých dat…

Přesně tak.

Taková data by se městům mohla hodit pro nejrůznější projekty, třeba k plánování uzavírek a vyhodnocování jejich dopadů. Jste schopni spolupracovat s obcemi na podobných jednorázových akcích? A jak podrobná ta data jsou?

To je po technické a odborné stránce velmi dobrá otázka. Je zapotřebí se podívat na topologii sítě mobilních operátorů. V zásadě jde o buňky s plošným pokrytím, které mají nějakou hustotu, a z ní vyplývá přesnost celého systému. Pro měření dopravy není tato přesnost úplně ideální, ale díky chytrým algoritmům lze zmapovat chování lidí na páteřní síti komunikací mimo města. Například pokud nějakou buňkou prochází dálnice a my v ní detekujeme velké množství SIM karet s velmi krátkou dobou výskytu, můžeme předpokládat, že v daný okamžik lidé na tomto úseku dálnice plynule projíždějí. Tuto informaci zkombinujeme s jinými daty, která nejsou tak robustní, zato jsou přesnější – například z GPS. Výsledkem může být velmi dobrý, spolehlivý systém, což dokazují i naše interní analýzy.

Související článek

I váš počítač může najít lék na koronavirus, stačí být online

Pomozte vědcům se složitými výpočty při hledání nových léků a vakcín. V minulosti už takto celý svět hledal mimozemské civilizace, nyní se semkl v boji proti pandemii COVID-19.

Je takový systém použitelný i ve městech?

Tam bych byl opatrnější. Síť vysílačů totiž není tak hustá jako uliční síť. Samozřejmě zjistíme, že se v nějaké buňce vyskytuje tolik a tolik SIM karet, jenže v dané buňce může být klidně pět křižovatek a my nevidíme, na které z nich daná SIM karta je. Samotná data mobilního operátora tudíž k takovým účelům vhodná nejsou. Fungují ale jako výborný doplňkový zdroj, díky nim je datová sada robustnější. Ve městech se data od operátorů hodí mnohem víc pro jiné účely než pro řízení dopravy – třeba pro měření cestovního ruchu, plánování infrastruktury a podobně. Obecně tam, kde je zapotřebí sledovat nějaké dlouhodobé trendy.

Důležitým zdrojem dat je v současné době Atlas mobility – akademický projekt Vysoké školy báňské, jehož se účastní i T-Mobile. Škola díky tomuto projektu získává unikátní data. Co získává T-Mobile?

Spolupráce s akademickou sférou pro nás má několik cílů. Jedním z nich je zkoumat, co se dá se získanými daty dělat. Existuje řada cest. Některé jsou slepé, a to je pro komerční společnosti, tedy i pro T-Mobile, za běžných okolností problém – prostě nemáme čas je zkoumat. Ovšem akademici mají zkoumání v popisu práce. A je pro nás samozřejmě cenný i samotný výzkum. Akademici jsou chytří, mají možnost jít do hloubky, mají čas i prostředky, zkoumání je baví a dokážou přijít na spoustu cenných věcí, které komerční sektor nezjistí, protože musí primárně vydělávat. No, a pokud se díky jejich výzkumu naopak ukáže, že zkoumaná cesta není slepá a představuje zajímavou příležitost, tak je to pro nás ještě cennější.

Jak moc detailní jsou data, která akademické sféře poskytujete?

Jsou anonymizovaná a agregovaná, ovšem s dostatečnou mírou podrobností, aby s nimi mohli smysluplně pracovat. Surová data k dispozici samozřejmě nedáváme. V tom se samozřejmě řídíme platnou legislativou.

V současné situaci získalo sledování mobility ještě jiný význam, například v souvislosti s chytrou karanténou. Data mobilních operátorů mimo jiné naznačila, že se spousta lidí nevzdaluje dál než 300 metrů od domova. Zapojuje se T-Mobile do těchto projektů aktivně, nebo spíše čeká na to, kdo si o ta data řekne?

K chytré karanténě se nemůžu podrobně vyjadřovat, takže jen obecně: k datům je nutné se chovat eticky a odpovědně. To zdaleka neplatí jen pro data od operátorů. V poslední době jsem v médiích četl a slyšel mnohá vyjádření ohledně chytré karantény a souvisejícího využití dat, a často mi přišla hodně nešťastná. T-Mobile se do chytré karantény zapojil jako jeden z operátorů v mnohokrát popsané formě – se souhlasem uživatele poskytneme data k vytvoření vzpomínkové mapy. Ta může být velmi užitečná, ale také se může stát, že neřekne prakticky nic. Sám si dokážu představit mnohem lepší nástroje.

Související článek

Koronavirus nenávratně změní české školství. Eva Pavlíková z Česko.Digital věří, že k lepšímu

Web, ze kterého všichni čerpají aktuální informace o nákaze COVID-19, nebo internetová výuka, díky níž školy mohou aspoň částečně nahradit běžný provoz. To jsou v tuto chvíli hlavní projekty platformy Česko.Digital, která patří k nejaktivnějším komunitám v zemi. Její provozní ředitelky Evy Pavlíkové jsme se zeptali, jak skupina v těchto hektických časech funguje.

Kromě toho ale existuje i druhá rovina, kde se snažíme pomoci – informujeme epidemiology a odpovědné úřady o tom, jak se lidé obecně chovají. Když jsme tahle data začali sledovat, zjistili jsme, že pokles mobility ve skutečnosti nebyl tak velký, jak se na první pohled zdálo. Když člověk vyšel ven, viděl pusté ulice, skoro prázdné vozy MHD a podobně, ale čísla tomu nenasvědčovala. Podívali jsme se na ně detailně a zjistili, že je to tzv. zdravá mobilita – procházky v přírodě, na kterých se lidé neshlukují. To není vůbec na škodu. Přitom kdyby někdo viděl jen čísla, mohl by usoudit, že lidé opatření nedodržují. Z toho je vidět, jak zavádějící by mohla být špatná interpretace dat.

Tím jsme se dostali k dalšímu citlivému tématu, které se týká big dat: korelace versus kauzalita. Lidé to často zaměňují a následně dochází ke špatným interpretacím. Co proti tomu dělat?

Hlavní je neustálá edukace lidí, kteří s daty pracují. A také si musíme uvědomit, že žádný výsledek nikdy není stoprocentně platný, vždy se jedná o nějakou míru pravděpodobnosti. To platí třeba pro počty lidí na určitých místech. Nikdy to nevíme přesně. To je nesmírně důležité – máme-li tohle na paměti, je jasné, že se vždy jedná o pouhou interpretaci, ne o holý, nezpochybnitelný fakt.

Něco jako když teď lidé každý den sledují nejrůznější grafy, kterým úplně nerozumějí, a přesto z nich vyvozují dalekosáhlé závěry?

Ano, to je prakticky totéž. A to ty dnes napjatě sledované grafy patří k jednodušším datovým souborům.

Líbí se vám článek? Sdílejte ho:
link odkaz
Reklama