Big Data

Co jsou Big Data

…v samotném roce 2017 bylo lidstvem vytvořeno tolik dat, jako za celou jeho předešlou historii… a v roce 2018 na světě vzniklo 16,3 ZB (zettabyte) dat – což je 16,3 miliard zcela zaplněných terabytových disků…“

Než si řekneme, jak je pojem „Big Data“ v současné době definován, podívejme se stručně na data jako taková.

Jaká data máme, nebo můžeme mít/ Jak chápeme data

Data mohou být buď strukturovaná, nebo nestrukturovaná.

  • Strukturovaná data

Strukturovaná data jsou organizována, nebo i přímo vznikají do pevně daných datových struktur, tzn. především do tabulek, nebo do jiných datových struktur s pevnými pravidly. Například tabulky v Excelu, textové soubory typu csv, XML soubory, data v SQL databázích. Taková data lze snadno třídit, filtrovat, graficky prezentovat, apod.

  • Nestrukturovaná data

Nestrukturovaná data nemají zcela jasnou strukturu, a nelze je přímo organizovat do nějakých pevných struktur. Jde například o textová data (e-maily, příspěvky na Twitteru, články v novinách,…), o multimediální data (fotky, videa, zvuky, hudba,…), data z map, data z bezpečnostních kamer, apod. Taková data se musí nejprve zpracovat (převést je na alespoň částečně strukturovaná), aby s nimi šla provádět oblíbená třídění, filtrování, seskupování, zobrazení do grafů, atd.

Kde data vznikají

Zdrojem dat mohou být lidé, stroje, nebo organizace.

  • Lidé

Lidé generují obrovské množství dat. Jde o fotky, videa, příspěvky na sociálních sítích, blogy, obrázky schémat, prezentace, apod. Převážná část lidmi generovaných dat je nestrukturovaná (uvádí se 80 – 90%). Zpracovat takováto data (tzn. uspořádat je a zpracovat tak, aby z nich bylo možné něco získat) není úplně snadný úkol, i když už existují postupy a metody, jak se této výzvě postavit.

woman-1446557_1280
  • Stroje

Tento typ dat je všude, a je jich obrovské množství. Jde o data z výrobních linek, z bezpečnostních a jiných kamer, IoT senzorů, z aplikací na mobilních telefonech, GPS senzorů, apod. Jde o strukturovaná i nestrukturovaná data.

Uvádí se, že moderní dopravní letadlo nasbírá během jednoho zaoceánského letu více než 500 TB dat. (http://aviationweek.com/connected-aerospace/internet-aircraft-things-industry-set-be-transformed)

robot-2301646_1280
  • Organizace

Data z komerčních transakci, kreditních karet, burzovních obchodů, bank, zdravotních záznamů, apod. Většinou jde o vysoce strukturovaná data, někdy však oddělená od souvisejících celků (viz poznámka níže o „datových silech“).

chart-1905225_1280

Big Data – klasická definice

Klasická definice, na kterou narazíte ve starší literatuře, charakterizuje Big Data pomocí tzv. „3V“:

  • Volume = Size = Objem

V posledním desetiletí objem dat exponenciálně roste. Uvádí se, že v samotném roce 2014 vzniklo tolik dat, kolik vzniklo od počátku historie až do roku 2012. Předpokládá se, že za desetiletí 2010 – 2020 objem dat naroste 50x. (z globálních cca. 800 exabytů v roce 2010 na 40.000 exabytů v roce 2020)

  • Velocity = Speed = Rychlost

Data vznikají velice rychle. Mailujeme, přispíváme do sociálních sítí, publikujeme videa. Stroje, čidla a systémy generují stále více dat ve stále kratších intervalech. Pro potřeby businessu je třeba data zpracovávat rychleji, pokud možno v reálném čase. Pozdní zpracování a vyhodnocení některých dat může znamenat promarněné příležitosti, nebo ztráty.

  • Variety = Complexity = Rozmanitost

Na počátku digitálního věku si data žila jen ve svých tabulkách. Nyní máme strukturovaná i nestrukturovaná data, nebo jejich kombinace. Na to nám běžné tabulky nestačí… Rozmanitá nejsou však jen vznikající data, ale i nástroje, jak tato data ukládat, vyhledávat v nich, a analyzovat je. Dobrým příkladem rozmanitosti dat je například e-mail. E-mail obsahuje dobře strukturovanou hlavičku (odesílatel, příjemce, datum, předmět, …), pak nestrukturované tělo, které může obsahovat text, odkazy, obrázky, smajlíky a srdíčka, no a také textové či multimediální přílohy.

Zajímavá fakta pro dokreslení představy o Big Data jsou uvedena v této prezentaci – 25 faktů o Big Datech.

Big Data – moderní definice

Modernější definice (která se mě osobně líbí více) přidává další dvě „V“, a zdůrazňuje ještě šesté „V“:

  • Veracity = Quality = Věrohodnost

Věrohodnost a kvalita dat, to jsou otázky, kterými je třeba se zabývat. Big Data přinášejí určitou míru nejistoty, která je spojena s mírou spolehlivosti zdrojů, v jakém kontextu jsou data pořizována, apod. Aplikace pokročilých analytických metod může přinést fantastické výsledky, můžete skutečně vidět do blízké budoucnosti. Na kvalitu a věrohodnost dat však nikdy nesmíme zapomenout. Zapomeneme-li, pak naší analýzu postihne „SiSo“ = Shit in Shit Out.

  • Valence = Connectivity = Vzájemné propojení

Vzájemná propojení dat, hustota těchto propojení, doplňování souvislostí, to jsou atributy současnosti. Hovoříme-li pouze o lidech, tak každou sekundu za sebou necháváme datovou stopu – telefon dokumentuje naší polohu, chytré hodinky vědí, jaký máme tep, či jestli právě stojíme, nebo sedíme, sociální sítě ví, co si právě myslíme, nebo jaký názor na cokoli právě sdílíme, obchodní řetězce vědí, co kupujeme, tudíž kolik asi vyděláváme a kde bydlíme, sportovní aplikace ví, kudy běháme, a jakou asi máme fyzickou kondici, apod. Velká část takto pořízených dat je pak na prodej (sice některá de-personalizovaná), a jejich propojením lze pak např. cíleně nabízet produkty, nebo ovlivňovat výsledky voleb…

Jádrem moderního chápání pojmu Big Data je však šesté „V“:

  • Value = Hodnota

Tento atribut je „jádrem pudla“. Big Data totiž ukrývají hodnotu. Hodnota může být nulová, i záporná, ale může být (a je) i taková, že má sílu doslova stvořit celá nová odvětví ekonomiky. Hodnota ukrytá v datech je motorem našeho snažení (i když původem byl beze sporu akademický zájem geniálních profesorů). Data lze sbírat, prodávat, kupovat, analyzovat, pomocí dat lze ušetřit značné částky nebo práci lidí, data mohou pomoci získat nové trhy, zoptimalizovat prodejní řetězec, data mohou pomoci najít léčbu, diagnostikovat rakovinu,… Data lze navíc opakovaně používat, dokonce pokaždé pro jiný účel.

Alternativní definice

Alternativní definice, ke které mám však drobné výhrady, popisuje Big Data jako velmi velké soubory dat, které nelze efektivně zpracovat a vyhodnotit klasickými IT prostředky. Pro porozumění a úvod je tato definice asi OK. Mé drobné výhrady se týkají velikosti souboru – myslím, že Big Data někdy nemusí být Big jen tím, že jde o terabytové databáze, ale i tím, jak komplexní data obsahují; např. v literatuře se uvádí příklad odhalení korupčního chování v japonském sportu Sumo, kdy  hlavní zdrojový soubor neobsahoval ani 100.000 záznamů, a přesto svou komplexitou a propojeností jde o příklad aplikace Big Data: Sumo – analýza).

Příklady aplikace Big Data

Obecně vzato, aplikace z oblasti Big Data se týkají jednotlivců, zájmových skupin, sportu, firem, institucí, států i celého světa. Big Data dávají odpovědi mnohdy spíše na otázku „Co“, než „Proč“. Odhalují trendy, vazby a vztahy, ukazují, že se něco děje a je třeba tomu věnovat pozornost, pomáhají rozšiřovat lidské poznání. Mohou však i ukázat, jak a kde efektivněji škodit (viz například sponzorovaná manipulace s názory lidí před volbami v USA, na základě poznání, k jaké názorové skupině lidé patří – což bylo identifikováno pomocí shromažďování a analýzy chování lidí na sociálních sítích).

Globální význam a dopad mají například modely, které analyzují a předpovídají počasí, monitorují a vyhodnocují nebezpečí srážek vesmírných těles se Zemí, a podobně.

Státy sbírají a vyhodnocují celou paletu dat, od dat spojených se správou státu, přes analýzy a predikce kriminality, až po sledování osob – ať už pomocí dat z mobilních sítí, nebo dat ze stále se rozšiřující sítě bezpečnostních kamer.

Instituce z oblasti vědy sbírají a analyzují data za účelem rozšíření lidského poznání. Například CERN dosáhl v polovině roku 2017 velikost databáze 200 PB (viz CERN – 200PB). Týmy lékařů hledají modely a analyzují data, směrem k personalizované medicíně, lepší diagnostice závažných nemocí a k jejich prevenci. Dále finanční instituce hledají a používají Big Data k optimalizaci investic, k automatizaci burzovních obchodů, k posouzení rizik, k odhalení podvodných pojistných událostí, nebo k identifikaci podvodných karetních operací.

Firmy hledají především aplikace, které povedou k tomu, že firma více vydělá, nebo méně utratí, tzn. vyrobí něco rychleji a/ nebo kvalitněji, zoptimalizuje svůj dodavatelský řetězec, přestane vyrábět nějaký výrobek, lépe nastaví výrobní linku a bude vědět, kdy na lince hrozí porucha, porozumí lépe svým zákazníkům, doporučí zákazníkům cíleně nějaký produkt, včas odhalí nespokojeného zaměstnance, a tak dále. Pozor však na jednu věc: aplikace Big Data ve firmách se zdá v obecné rovině jasná, dobře se o ní diskutuje a o výhodnosti se dá jen těžko pochybovat. Ale najít skutečný scénář, k němu kompletní data a vhodné partnery pro realizaci tohoto scénáře, může být větší výzva, než ovládnutí technologie, metod a vlastní realizace scénáře.

Jednotlivci – GPS, Sports Trackery, Health Wearables, ale i domácí analyzování, Googlování, apod.

Zajímavý přehled o praktických aplikacích Big Data je například zde Big Data – 10 oblastí použití.

Odkazy

Pro získání přehledu, doporučuji tuto knihu (populární styl, bez technických detailů, obsahuje motivační příklady, historky, a užitečné odkazy):

Big Data
Revoluce, která změní způsob, jak žijeme, pracujeme a myslíme
Viktor Mayer-Schönberger Kenneth Cukier

Koupit lze např. zde.

Dále doporučuji absolvování tohoto on-line kurzu na Coursera.com:

Introduction to Big Data, Univerisity of California, San Diego

Jde o úvodní kurz ke specializaci (= sérii certifikovaných kurzů) Big Data. Další kurzy z této specializace jsou „slabší“, ale úvod je pro seznámení s tématikou OK.

Odkaz je zde.

 

big-data-1352491_1280