Online kurz Apache Spark a Veľké dáta (Big Data) je pre vás ideálny, ak sa chcete naučiť spracúvať obrovské množstvá dát efektívne a rýchlo pomocou moderných nástrojov distribuovaného výpočtu. Ide o akreditovaný a certifikovaný online kurz na Python, Apache Spark a Veľké dáta (Big Data). Kurz je zameraný na praktické zvládnutie technológií, ktoré sa dnes využívajú pri práci s rozsiahlymi dátovými súbormi, ktoré už nie je možné efektívne spracovať v klasických tabuľkových nástrojoch, ako je Microsoft Excel. Účastník sa najprv oboznámi so základnými pojmami z oblasti Big Data vrátane kľúčových charakteristík 3V až 12V – veľkosť (volume), rýchlosť (velocity) a rôznorodosť (variety) dát. Vysvetlený je rozdiel medzi dátami, informáciami a znalosťami, ako aj obmedzenia tradičných preprocesorov v porovnaní s distribuovanými platformami. Získate prehľad o binárnych formátoch (napr. XLSB), textových súboroch a ich spracovaní v prostrediach, kde tabuľkové editory už nestačia. Praktickú časť otvára inštalácia a konfigurácia Apache Spark – jednej z najvýkonnejších open-source platforiem pre Big Data spracovanie. Apache Spark umožňuje vykonávať paralelné výpočty v pamäti, čo podstatne zrýchľuje spracovanie veľkých objemov dát. V ďalšej časti sa sústredíme na najdôležitejšie dátové štruktúry v Apache Spark – RDD (Resilient Distributed Dataset), DataFrames a Datasets. Naučíte sa, ako tieto štruktúry efektívne používať pri analýze dát, transformáciách, filtrovaní, agregáciách aj spájaní údajov. Kurz obsahuje aj modul venovaný Spark SQL – rozšíreniu, ktoré umožňuje používať dobre známe SQL príkazy pri práci s veľkými dátovými množinami, čím sa spája svet databáz a paralelného spracovania. Súčasťou kurzu je aj praktický bonusový modul, v ktorom generujeme realisticky vyzerajúce fiktívne dáta pomocou knižnice Faker a pracujeme s formátom Parquet, ktorý je optimalizovaný pre výkon a veľkosť. Tento kurz je ideálnym vstupným bodom pre všetkých, ktorí chcú získať kompetencie v oblasti dátovej analytiky, inžinierstva a veľkých dát a pripraviť sa na moderné výzvy dátovo orientovaného sveta. Ak sa chcete skutočne naučiť Apache Spark a veľké dáta, tak toto je ideálny vstupný online kurz pre vás.
Course from Miroslav Reiter - 20.06.2025
Kód kurzu: VYSOKOVYKONNE-POCITANIE-HPC-BIG-DATA-1
Slovenský