ODBIERZ TWÓJ BONUS :: »

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

Autorzy:
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Wydawnictwo:
Helion
Wydawnictwo:
Helion
Ocena:
Bądź pierwszym, który oceni tę książkę
Stron:
192
Druk:
oprawa miękka
Dostępne formaty:
     PDF
     ePub
     Mobi
Czytaj fragment
Książka
41,40 zł 69,00 zł (-40%)
41,40 zł najniższa cena z 30 dni

Dodaj do koszyka Wysyłamy w 24h

Ebook
34,50 zł 69,00 zł (-50%)
34,50 zł najniższa cena z 30 dni

Dodaj do koszyka lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Do przechowalni

Powiadom o dostępności audiobooka »

Czego się nauczysz?

  • Instalowania i konfigurowania środowiska PySpark i Apache Spark 3.0
  • Przetwarzania i analizowania dużych zbiorów danych z użyciem DataFrame
  • Łączenia, przekształcania i filtrowania danych w PySpark
  • Tworzenia systemów rekomendacyjnych na podstawie rzeczywistych danych
  • Dobierania i optymalizowania hiperparametrów w modelach uczenia maszynowego
  • Budowania i regulowania drzew oraz lasów decyzyjnych do prognozowania
  • Wykrywania anomalii w danych za pomocą grupowania metodą k-średnich
  • Analizowania danych tekstowych z wykorzystaniem algorytmu LDA i Spark NLP
  • Przetwarzania i analizowania danych geoprzestrzennych oraz temporalnych
  • Szacowania ryzyka finansowego z użyciem metod VaR, symulacji historycznej i Monte Carlo
  • Przetwarzania i analizowania danych genomicznych z wykorzystaniem pakietu ADAM
  • Określania podobieństwa obrazów przy użyciu głębokiego uczenia i algorytmu PySpark LSH
  • Wektoryzowania i osadzania obrazów z użyciem PyTorch i integracji z PySpark
  • Zarządzania cyklem życia modeli uczenia maszynowego za pomocą platformy MLflow
  • Monitorowania, śledzenia eksperymentów i udostępniania modeli ML
  • Stosowania dobrych praktyk programowania i pracy z dużymi zbiorami danych w ekosystemie Spark

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.

Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.

Dzięki książce poznasz:

  • model programowania w ekosystemie Spark
  • podstawowe metody stosowane w nauce o danych
  • pełne implementacje analiz dużych publicznych zbiorów danych
  • konkretne przypadki użycia narzędzi uczenia maszynowego
  • kod, który łatwo dostosujesz do swoich potrzeb

PySpark: systemowa odpowiedź na problemy inżyniera danych!

Wiosna w głowie, ebook w dłoni! / do -50% na tysiące tytułów

Wybrane bestsellery

O autorach książki

Akash Tandon jest inżynierem danych i przedsiębiorcą, a także współzałożycielem i dyrektorem technicznym firmy Looppanel.

Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.

Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.

Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.

Josh Wills jest starszym menedżerem działu analiz danych w Cloudera i inicjatorem pakietu Apache Crunch.

Zobacz pozostałe książki z serii

Helion - inne książki

Najczęściej zadawane pytania (FAQ)
1. Czy potrzebuję wcześniejszego doświadczenia z Apache Spark lub PySpark, aby korzystać z tej książki?
Nie, książka wprowadza czytelników w podstawy Apache Spark i PySpark, a następnie prowadzi przez coraz bardziej zaawansowane zagadnienia. Podstawowa znajomość Pythona i analizy danych będzie pomocna, ale nie jest wymagana znajomość Sparka.
2. Czy książka zawiera praktyczne przykłady kodu i projekty do samodzielnego wykonania?
Tak, książka jest bogata w praktyczne przykłady kodu, studia przypadków oraz projekty oparte na rzeczywistych zbiorach danych, które można samodzielnie przećwiczyć.
3. Jakie narzędzia i środowiska są potrzebne, aby realizować ćwiczenia z książki?
Do pracy z książką wystarczy komputer z zainstalowanym Pythonem, PySpark oraz dostęp do wybranych bibliotek PyData. Autor opisuje proces instalacji i konfiguracji potrzebnego oprogramowania krok po kroku.
4. Czy książka obejmuje zagadnienia uczenia maszynowego i sztucznej inteligencji w PySpark?
Tak, w książce znajdziesz rozdziały poświęcone m.in. klasyfikacji, grupowaniu, wykrywaniu anomalii, analizie tekstu i obrazów oraz zarządzaniu cyklem uczenia maszynowego z wykorzystaniem MLflow.
5. Czy publikacja porusza tematy związane z analizą danych w różnych branżach?
Tak, w książce omówiono praktyczne przykłady zastosowań analizy danych w finansach, genomice, bezpieczeństwie IT, analizie obrazów i danych geoprzestrzennych.
6. Czy książka jest aktualna względem najnowszych wersji Apache Spark?
Tak, książka koncentruje się na wersji 3.0 Apache Spark i omawia jej nowe funkcje oraz możliwości.
7. Czy materiały dodatkowe, takie jak dane lub kody źródłowe, są dostępne dla czytelników?
Tak, autor udostępnia przykładowe zbiory danych oraz kody źródłowe, które można pobrać i wykorzystać podczas nauki.
8. Czy ta książka pomoże mi przygotować się do pracy z dużymi zbiorami danych w praktycznych projektach?
Tak, książka kładzie nacisk na praktyczne aspekty analizy dużych zbiorów danych i pokazuje, jak efektywnie wykorzystywać PySpark w realnych zastosowaniach.

Zamknij

Przenieś na półkę
Dodano produkt na półkę
Usunięto produkt z półki
Przeniesiono produkt do archiwum
Przeniesiono produkt do biblioteki

Zamknij

Wybierz metodę płatności

Książka
41,40 zł
Dodaj do koszyka
Ebook
34,50 zł
Dodaj do koszyka
Płatności obsługuje:
Ikona płatności Alior Bank Ikona płatności Apple Pay Ikona płatności Bank PEKAO S.A. Ikona płatności Bank Pocztowy Ikona płatności Banki Spółdzielcze Ikona płatności BLIK Ikona płatności Crédit Agricole e-przelew Ikona płatności dawny BNP Paribas Bank Ikona płatności Google Pay Ikona płatności ING Bank Śląski Ikona płatności Inteligo Ikona płatności iPKO Ikona płatności mBank Ikona płatności Millennium Ikona płatności Nest Bank Ikona płatności Paypal Ikona płatności PayPo | PayU Płacę później Ikona płatności PayU Płacę później Ikona płatności Plus Bank Ikona płatności Płacę z Citi Handlowy Ikona płatności Płacę z Getin Bank Ikona płatności Płać z BOŚ Ikona płatności Płatność online kartą płatniczą Ikona płatności Santander Ikona płatności Visa Mobile