Apache Spark jest oprogramowaniem open source, przeznaczonym do klastrowego przetwarzania danych dostarczanych w ró,żnych formatach. Pozwala na uzyskanie niespotykanej wydajności, umożliwia też pracę w trybie wsadowym i strumieniowym. Framework ten jest ró,wnież świetnie przygotowany do uruchamiania złożonych aplikacji, włączając w to algorytmy uczenia maszynowego czy analizy predykcyjnej. To wszystko sprawia, że Apache Spark stanowi znakomity wybó,r dla programistó,w zajmujących się big data, a także eksploracją i analizą danych.
To książka przeznaczona dla inżynieró,w danych i programistó,w, któ,rzy chcą za pomocą Sparka przeprowadzać skomplikowane analizy danych i korzystać z algorytmó,w uczenia maszynowego, nawet jeśli te dane pochodzą z ró,żnych źró,deł. Wyjaśniono tu, jak dzięki Apache Spark można odczytywać i ujednolicać duże zbiory informacji, aby powstawały niezawodne jeziora danych, w jaki sposó,b wykonuje się interaktywne zapytania SQL, a także jak tworzy się potoki przy użyciu MLlib i wdraża modele za pomocą biblioteki MLflow. Omó,wiono ró,wnież wspó,łdziałanie aplikacji Sparka z jego rozproszonymi komponentami i tryby jej wdrażania w poszczegó,lnych środowiskach.
W książce:
Spark: twó,rz skalowalne i niezawodne aplikacje big data!