Pár slov na úvod

Téma Big Data a Strojové učení se s určitým zpožděním za zeměmi jako Čína, Indie, nebo USA, začíná čím dál častěji objevovat v evropských, potažmo v českých médiích.

Mezi českými firmami se objevují první vlaštovky, které se tématu začínají věnovat. Manažeři diskutují při golfu, o kolik více mohou vydělat aplikací Big Data, kolik ušetří aplikací strojového učení, atd.

future-2372183_1280

Doba je rychlá, je tedy třeba být připraven. Ať jste ajťák, analytik, statistik, nebo majitel firmy, ať jste ve firmě „dostali“ projekt, nebo jste projekt se zájmem sami vyvolali, potřebujete se rychle zorientovat v tématu.

Před třemi lety jsem byl v podobné pozici. Vzhledem k stále ještě omezenému množství strukturovaných informací na domácí půdě, jsem nastoupil sebe vzdělávací cestu. Cesta to byla velmi vzrušující a zábavná (a zdaleka ještě není u konce), ale když její začátky hodnotím zpětně, byly bohužel příliš dlouhé, a bohaté na výskyt slepých uliček…

Pro ty z vás, kteří nechcete trávit večery hledáním informací, čtením populárních leč zbytečných TOPx článků, zkoumáním různých systémů od nuly, absolvováním několikatýdenních MOOC  kurzů s nízkou přidanou hodnotou, ale přesto chcete rychle proniknout do tématu a zorientovat se v problematice Big Data, strojového učení apod., pak právě pro vás je určen tento blog.


Posláním blogu budiž tedy:

„Usnadnit a hlavně zkrátit začátek cesty ke skutečné práci na poli velkých dat, strojového učení a umělé inteligence, a tím pomoci jednotlivcům, firmám, a tím i celé naší zemi, k efektivnějšímu fungování a konkurenceschopnosti ve světě.“


 

Na několika stránkách se postupně budeme věnovat následujícím tématům:

Big Data – klasická a rozšířená definice, doporučená literatura úplně na začátek, několik klasických poutavých příkladů k dokreslení závažnosti tohoto přístupu, doporučení volně přístupných kurzů od světových univerzit, včetně odkazů a doporučení, co se vyplatí  nevyplatí absolvovat.

Datová věda – zde se věnuji zejména předpokladům, které je dle mého názoru třeba splnit, abyste se hned na začátku cesty úplně neztratili. Doporučím a ukážu, jaké základní znalosti budete potřebovat znát, včetně příkladů k vyzkoušení či stažení, a odkazů na školení na otevřených platformách.

Aplikované strojové učení – zde ukáži základní principy, které je třeba znát, abyste mohli provádět analýzu dat a přípravu dat pro strojové učení. Předvedeme vám interaktivní prostředí pro vytváření, testování, ladění a hodnocení datových modelů, včetně několika praktických příkladů, které si pak sami budete moci vyzkoušet.

Základní modely pro strojové učení – zde si ukážeme praktickou aplikaci základní sady modelů pro strojové učení (postupně budeme doplňovat – Linerní regrese, Logistické regrese, Ridge (hřebenová) a Lasso regrese, Support Vector Machine, KNN, Naive Bayes, Decision Tree, Random Forrest, ADA Boost, Neuronová síť, Deep Learning, Principal components, t-SNE, Clustering,…)

Systémy pro Big Data, AI a Strojové učení – zde uvedeme výčet systémů, které jsem měl možnost poznat, včetně výhod, nevýhod a doporučení. Rovněž jsou zde návody, jak si uvedené systémy stáhnout a na co si dát při instalaci, nebo jejich provozu pozor. (Anaconda – Python, Jupyter notebook, Jupyter Lab, Knime, pak Cloudera – Hadoop, Spark, Impala, apod., a také Tableau, Excel Power Tools, Power BI).

 

network-3139214_1280