ODBIERZ TWÓJ BONUS :: »

Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Autorzy:
Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
Wydawnictwo:
Helion
Wydawnictwo:
Helion
Ocena:
5.0/6  Opinie: 3
Stron:
360
Druk:
oprawa miękka
Dostępne formaty:
     PDF
     ePub
     Mobi
Czytaj fragment
Książka
53,40 zł 89,00 zł (-40%)
53,40 zł najniższa cena z 30 dni

Dodaj do koszyka Wysyłamy w 24h

Ebook
44,50 zł 89,00 zł (-50%)
44,50 zł najniższa cena z 30 dni

Dodaj do koszyka lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Do przechowalni

Powiadom o dostępności audiobooka »

Czego się nauczysz?

  • Instalowania i konfigurowania Apache Spark na różnych środowiskach
  • Tworzenia i uruchamiania aplikacji Spark w Scali, Pythonie, SQL i Javie
  • Przetwarzania danych z użyciem RDD, DataFrame i Dataset
  • Łączenia się z różnorodnymi źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3, Kafka
  • Wykonywania zapytań SQL oraz operacji analitycznych na danych wsadowych i strumieniowanych
  • Optymalizowania i dostrajania wydajności aplikacji Spark
  • Buforowania i trwałego przechowywania danych w Spark
  • Tworzenia i zarządzania jeziorami danych oraz repozytoriami Lakehouse (Delta Lake, Apache Hudi, Iceberg)
  • Przetwarzania i analizowania danych strumieniowych w czasie rzeczywistym
  • Projektowania i wdrażania potoków uczenia maszynowego z wykorzystaniem MLlib
  • Przygotowywania i transformowania danych do modeli uczenia maszynowego
  • Wdrażania i zarządzania modelami MLflow oraz integracji z MLlib
  • Skalowania i monitorowania potoków danych oraz modeli machine learning
  • Stosowania zaawansowanych funkcji Spark SQL, takich jak okna czasowe, złączenia, agregacje
  • Zarządzania schematem, ewolucją danych oraz historią operacji w Delta Lake
  • Korzystania z nowych funkcji Apache Spark 3.0, w tym dynamicznego oczyszczania partycji i adaptacyjnego wykonywania zapytań

Apache Spark jest oprogramowaniem open source, przeznaczonym do klastrowego przetwarzania danych dostarczanych w różnych formatach. Pozwala na uzyskanie niespotykanej wydajności, umożliwia też pracę w trybie wsadowym i strumieniowym. Framework ten jest również świetnie przygotowany do uruchamiania złożonych aplikacji, włączając w to algorytmy uczenia maszynowego czy analizy predykcyjnej. To wszystko sprawia, że Apache Spark stanowi znakomity wybór dla programistów zajmujących się big data, a także eksploracją i analizą danych.

To książka przeznaczona dla inżynierów danych i programistów, którzy chcą za pomocą Sparka przeprowadzać skomplikowane analizy danych i korzystać z algorytmów uczenia maszynowego, nawet jeśli te dane pochodzą z różnych źródeł. Wyjaśniono tu, jak dzięki Apache Spark można odczytywać i ujednolicać duże zbiory informacji, aby powstawały niezawodne jeziora danych, w jaki sposób wykonuje się interaktywne zapytania SQL, a także jak tworzy się potoki przy użyciu MLlib i wdraża modele za pomocą biblioteki MLflow. Omówiono również współdziałanie aplikacji Sparka z jego rozproszonymi komponentami i tryby jej wdrażania w poszczególnych środowiskach.

W książce:

  • API strukturalne dla Pythona, SQL, Scali i Javy
  • operacje Sparka i silnika SQL
  • konfiguracje Sparka i interfejs Spark UI
  • nawiązywanie połączeń ze źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3 i Kafka
  • operacje analityczne na danych wsadowych i strumieniowanych
  • niezawodne potoki danych i potoki uczenia maszynowego

Spark: twórz skalowalne i niezawodne aplikacje big data!

Wiosna w głowie, ebook w dłoni! / do -50% na tysiące tytułów

Wybrane bestsellery

O autorach książki

Jules S. Damji - jest inżynierem oprogramowania dla wielu wiodących firm, takich jak Netscape, Sun Microsystems, Verisign i ProQuest. Zajmuje się systemami rozproszonymi.

Brooke Wenig - kieruje zespołem, który opracowuje potoki uczenia maszynowego. Prowadzi też szkolenia z zakresu rozproszonego uczenia maszynowego.

Tathagata Das - jest członkiem Apache Spark Project Management Committee. Pracuje nad strumieniowaniem strukturalnym i Delta Lake.

Denny Lee - zajmuje się systemami rozproszonymi i inżynierią danych, zwłaszcza dla branży ochrony zdrowia.

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee - pozostałe książki

Zobacz pozostałe książki z serii

Helion - inne książki

Najczęściej zadawane pytania (FAQ)
1. Czy muszę znać Apache Spark, aby korzystać z tej książki?
Nie, książka prowadzi czytelnika krok po kroku od podstaw instalacji i konfiguracji Apache Spark, aż po zaawansowane zastosowania, dzięki czemu nadaje się także dla osób rozpoczynających naukę tego narzędzia.
2. Jakie języki programowania są wykorzystywane w książce?
W książce omówiono korzystanie z Apache Spark w językach Python, Scala, Java oraz SQL, prezentując przykłady i wyjaśnienia dla każdego z nich.
3. Czy książka zawiera praktyczne przykłady kodu?
Tak, publikacja zawiera liczne przykłady kodu oraz scenariusze zastosowań, które pomagają zrozumieć praktyczne aspekty pracy z Apache Spark i jego komponentami.
4. Czy z książki dowiem się, jak przetwarzać dane zarówno wsadowe, jak i strumieniowe?
Tak, książka szczegółowo opisuje zarówno przetwarzanie wsadowe, jak i strumieniowe, pokazując, jak wykorzystywać Spark do pracy z różnymi rodzajami danych.
5. Czy publikacja omawia integrację Sparka z innymi źródłami danych, np. bazami SQL, Hive czy Kafka?
Tak, w książce znajdziesz rozdziały poświęcone integracji z wieloma różnymi źródłami danych, takimi jak bazy SQL, Hive, S3, Kafka i wiele innych.
6. Czy Spark. Błyskawiczna analiza danych. Wydanie II jest aktualna względem najnowszych wersji Apache Spark?
Tak, książka uwzględnia nowości wprowadzone w Apache Spark 3.0 oraz opisuje najnowsze funkcje i zmiany w API.
7. Czy książka pomoże mi w nauce budowy potoków uczenia maszynowego w Sparku?
Tak, publikacja zawiera rozdziały poświęcone tworzeniu, wdrażaniu i zarządzaniu potokami uczenia maszynowego z wykorzystaniem MLlib oraz MLflow.
8. Czy mogę korzystać z tej książki podczas przygotowań do pracy z dużymi zbiorami danych (big data)?
Zdecydowanie tak - książka jest skoncentrowana na efektywnym przetwarzaniu i analizie dużych zbiorów danych przy użyciu Apache Spark, co czyni ją wartościowym źródłem wiedzy dla specjalistów big data.

Zamknij

Przenieś na półkę
Dodano produkt na półkę
Usunięto produkt z półki
Przeniesiono produkt do archiwum
Przeniesiono produkt do biblioteki

Zamknij

Wybierz metodę płatności

Książka
53,40 zł
Dodaj do koszyka
Ebook
44,50 zł
Dodaj do koszyka
Płatności obsługuje:
Ikona płatności Alior Bank Ikona płatności Apple Pay Ikona płatności Bank PEKAO S.A. Ikona płatności Bank Pocztowy Ikona płatności Banki Spółdzielcze Ikona płatności BLIK Ikona płatności Crédit Agricole e-przelew Ikona płatności dawny BNP Paribas Bank Ikona płatności Google Pay Ikona płatności ING Bank Śląski Ikona płatności Inteligo Ikona płatności iPKO Ikona płatności mBank Ikona płatności Millennium Ikona płatności Nest Bank Ikona płatności Paypal Ikona płatności PayPo | PayU Płacę później Ikona płatności PayU Płacę później Ikona płatności Plus Bank Ikona płatności Płacę z Citi Handlowy Ikona płatności Płacę z Getin Bank Ikona płatności Płać z BOŚ Ikona płatności Płatność online kartą płatniczą Ikona płatności Santander Ikona płatności Visa Mobile