Čím začít

Tato kapitola je věnována výčtu pojmů a znalostí, které si musíte osvojit, pokud chcete porozumět příkladům, které uvádím v praktické části tohoto blogu. Základní znalosti se týkají pojmů, a technických nástrojů, se kterými se běžně při práci s daty setkáte a kterým se prostě nevyhnete.

Základní znalosti

Na dobrých základech se dá stavět. Níže uvádím stručný výčet obecných znalostí, které je třeba si osvojit, abyste jste se při hlubším ponoření do tématu neztráceli.

Datové formáty – XLSX, CSV, JSON, XML

Pro práci s daty je nezbytné přesně znát alespoň základní datové formáty (exotičtější si vygůglíte). Pokud by bylo třeba, zde uvádím detailnější informace: Základní datové formáty

MS Excel

Někteří možná namítnou, že MS Excel je hračka pro děti a pro sekretářky, ale já si dovolím nesouhlasit. Pro práci s daty je MS Excel stále velmi důležitý. Pokud datové vstupy nejsou mnohasettisícové tabulky (kdy i když pracujete v .xlsb formátem, a máte procesor Core i7 tak prostě Excel nestíhá), tak je MS Excel velmi dobrá volba pro přípravu datových souborů, čištění dat, prvotní analýzu, či prezentaci výsledků. Mé doporučení k jakémusi MS Excel minimu (vzorce, datové funkce a Power Tools), uvádím zde: Vybrané funkce pro datovou vědu

Statistika – základní pojmy

Big Data a strojové učení je hlavně o statistice, do které musíte postupně proniknout (pokud jí samozřejmě nemáte vystudovanou:-). Pro začátek, abyste nebyli úplně ztraceni hned na startu běhu, vystačíte se znalostí základních pojmů – průměr, modus, medián, percentily, směrodatná odchylka, rozdělení, korelace, regrese. Stručné definice a příklady a odkazy na hlubší vzdělání uvádím zde: *****rozpracováno, brzy doplním*****

Matematika

Základy lineární algebry

Analytické myšlení

Jazyky Python nebo R

Python je vysokoúrovňový programovací jazyk, který pomáhá datovým vědcům na celém světě vyvinout, odladit a aplikovat modely pro strojové učení a umělou inteligenci. Jazyk je oblíbený pro svou jednoduchost, snadnou dosažitelnost, a širokou komunitu, která jazyk dále aktivně vyvíjí, podporuje, a rozšiřuje o nejnovější poznatky na poli datové vědy. Detailní informace a odkazy jsou zde: PYTHON – detailní info

Jazyk R je alternativou pro jazyk Python. Je určitě skvělý pro práci s daty (na Kagglu najdete příklady rovnocenné s Pythonem), ale mě osobně R příliš nesedí (asi proto, že je dosti odlišné od toho, s čím mám zkušenosti – Java, ABAP, Python, Visual Basic). Jestli chcete dát R šanci, zkuste např. tento free úvodní kurz na DataCampu a uvidíte… R – intro na Data Campu

Jazyk SQL

Základy HTML

Databáze

Při práci s daty přijdete dříve nebo později do intenzivního kontaktu s databází. Základní dělení databází je na SQL databáze a NoSQL databáze. (Detailnější charakteristiku naleznete zde: Databáze.) Základy jazyka SQL a doporučení, pro práci databázemi uvádím ve speciální části tohoto blogu. *****rozpracováno, brzy doplním*****

Webové zdroje

Zde uvádím některé webové zdroje. Pro efektivní práci na poli Big Data a Strojového učení silně doporučuji se s těmito zdroji seznámit a aktivně s nimi pracovat.

  1. Kaggle – platforma pro datové vědce – Kaggle – bližší info
  2. Stackoverflow – globální komunita vývojářů a zároveň obrovská znalostní databáze
  3. GitHub – platforma pro správu programových kódů (open-source i business)
  4. DataCamp – vzdělávací platforma se zaměřením na data, včetně strojového učení
  5. Quandl – trh s daty (https://www.quandl.com/)

Profil datového vědce

Data_scientist

Odkazy na školení

  1. Školení (prezenční i e-learning) v češtině: https://www.elderberrydata.com/
  2. MOOC kurzy (anglicky):
chart-1905225_1280