Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
- Autorzy:
- Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
- Wydawnictwo:
- Helion
- Wydawnictwo:
- Helion
- Ocena:
- 5.0/6 Opinie: 3
- Stron:
- 360
- Druk:
- oprawa miękka
- Dostępne formaty:
-
PDFePubMobi
Opis
książki
:
Spark. Błyskawiczna analiza danych. Wydanie II
Apache Spark jest oprogramowaniem open source, przeznaczonym do klastrowego przetwarzania danych dostarczanych w różnych formatach. Pozwala na uzyskanie niespotykanej wydajności, umożliwia też pracę w trybie wsadowym i strumieniowym. Framework ten jest również świetnie przygotowany do uruchamiania złożonych aplikacji, włączając w to algorytmy uczenia maszynowego czy analizy predykcyjnej. To wszystko sprawia, że Apache Spark stanowi znakomity wybór dla programistów zajmujących się big data, a także eksploracją i analizą danych.
To książka przeznaczona dla inżynierów danych i programistów, którzy chcą za pomocą Sparka przeprowadzać skomplikowane analizy danych i korzystać z algorytmów uczenia maszynowego, nawet jeśli te dane pochodzą z różnych źródeł. Wyjaśniono tu, jak dzięki Apache Spark można odczytywać i ujednolicać duże zbiory informacji, aby powstawały niezawodne jeziora danych, w jaki sposób wykonuje się interaktywne zapytania SQL, a także jak tworzy się potoki przy użyciu MLlib i wdraża modele za pomocą biblioteki MLflow. Omówiono również współdziałanie aplikacji Sparka z jego rozproszonymi komponentami i tryby jej wdrażania w poszczególnych środowiskach.
W książce:
- API strukturalne dla Pythona, SQL, Scali i Javy
- operacje Sparka i silnika SQL
- konfiguracje Sparka i interfejs Spark UI
- nawiązywanie połączeń ze źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3 i Kafka
- operacje analityczne na danych wsadowych i strumieniowanych
- niezawodne potoki danych i potoki uczenia maszynowego
Spark: twórz skalowalne i niezawodne aplikacje big data!
Danych jest coraz więcej, pojawiają się szybciej i są w różnych formatach - wszystkie muszą być przetworzone na potrzeby analizy lub uczenia maszynowego. W jaki sposób można efektywnie przetwarzać tak zróżnicowane dane? Poznaj framework Apache Spark.
To uaktualnione do wersji Apache Spark 3.0 wydanie drugie książki pomaga zrozumieć inżynierom danych i naukowcom dlaczego struktura i ujednolicenie to tak ważne kwestie w Sparku. Dzięki tej książce dowiesz się, jak przeprowadzać zarówno proste jak i skomplikowane analizy danych oraz jak korzystać z algorytmów uczenia maszynowego.
Dzięki dokładnie omówionym rozwiązaniom, fragmentom kodu i notatnikom będziesz w stanie:
- opanować wysokiego poziomu API strukturalne dla Pythona, SQL, Scali i Javy;
- poznać operacje Sparka i silnika SQL;
- analizować, dostrajać i debugować operacje Sparka dzięki konfiguracjom Sparka i interfejsowi Spark UI;
- nawiązywać połączenia ze źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3 i Kafka;
- przeprowadzać operacje analityczne na danych wsadowych i strumieniowanych używając do tego strumieniowania strukturalnego;
- tworzyć niezawodne potoki danych za pomocą rozwiązań typu open source, takich jak Delta Lake i Spark;
- tworzyć potoki uczenia maszynowego, wykorzystując do tego bibliotekę MLlib oraz przygotowywać modele do środowiska produkcyjnego używając platformy MLfow.
"Ta pozycja zapewnia strukturalne podejście podczas poznawania Apache Spark i pokazuje, jak przeprowadzać nowe wdrożenia za pomocą tego frameworka. Niniejsza książka pomoże programistom Sparka na rozpoczęcie pracy z big data".
Reynold Xin, Databricks Chief Architect, współtwórca Apache Spark i członek Apache Spark PMC
"To niezbędna pozycja dla naukowców i inżynierów danych, którzy chcą poznać framework Apache Spark oraz dowiedzieć się, jak tworzyć skalowalne i niezawodne aplikacje big data".
Ben Lorica, Databricks Chief Data Scientist, Past Program Chair O'Reilly Strata Conferences, Program Chair for Spark + AI Summit
Wybrane bestsellery
-
Nowość Promocja
Dzięki tej książce przyswoisz różne techniki, które pomogą Ci stać się bardziej produktywnym analitykiem danych. Najpierw zapoznasz się z tematami związanymi z rozumieniem danych i umiejętnościami miękkimi, które okazują się konieczne w pracy dobrego danologa. Dopiero potem skupisz się na kluczowych aspektach uczenia maszynowego. W ten sposób stopniowo przejdziesz ścieżkę od przeciętnego kandydata do wyjątkowego specjalisty data science. Umiejętności opisane w tym przewodniku przez wiele lat były rozpoznawane, katalogowane, analizowane i stosowane do generowania wartości i szkolenia danologów w różnych firmach i branżach.- PDF + ePub + Mobi
- Druk 39 pkt
(34,90 zł najniższa cena z 30 dni)
39.50 zł
79.00 zł (-50%) -
Nowość Promocja
Dzięki temu praktycznemu przewodnikowi profesjonaliści zajmujący się danymi dobrze zrozumieją wady i zalety poszczególnych rozwiązań. Omówiono tu typowe zagadnienia dotyczące architektur danych, w tym ich rozwój i możliwości. Żadna architektura nie jest na tyle uniwersalna, by być odpowiednia w każdej sytuacji, dlatego w książce znajdziesz rzetelne porównanie cech poszczególnych architektur. Dowiesz się, jakie kompromisy towarzyszą każdej z nich, niezależnie od popularności. W ten sposób o wiele łatwiej przyjdzie Ci wybór rozwiązania, które najlepiej odpowiada Twoim potrzebom.- PDF + ePub + Mobi
- Druk 39 pkt
(34,90 zł najniższa cena z 30 dni)
39.50 zł
79.00 zł (-50%) -
Nowość Promocja
Tę książkę docenią osoby, które w ramach codziennej pracy integrują tematy związane z prywatnością i bezpieczeństwem danych. To przewodnik dla pragmatyków, zapewniający gruntowną wiedzę o współczesnych elementach ochrony danych, takich jak prywatność różnicowa, uczenie federacyjne i obliczenia szyfrowane. Znajdziesz tu przydatne wskazówki, jak również najlepsze, wielokrotnie sprawdzone praktyki integracji przełomowych technologii, pozwalające skutecznie i na wysokim poziomie dbać o prywatność i bezpieczeństwo danych.- PDF + ePub + Mobi
- Druk 39 pkt
(34,90 zł najniższa cena z 30 dni)
39.50 zł
79.00 zł (-50%) -
Nowość Promocja
Jeśli myślisz o karierze inżyniera danych, ale nie masz doświadczenia w pracy na tym stanowisku, to ten kurs jest dla Ciebie idealną propozycją. Inżynier danych dostarcza je innym zespołom w firmie – usługę tę świadczy głównie dla analityków danych i dla data scientist. Do głównych obowiązków inżyniera danych należy tworzenie procesów ETL i ELT, walidacja danych i przygotowywanie ich poprzez budowanie systemu pobierania (na przykład strumienie danych lub orkiestracja zadań). Jego pracę ułatwiają i usprawniają odpowiednie narzędzia. Takie jak platforma analityczna Databricks.- Videokurs 52 pkt
(39,90 zł najniższa cena z 30 dni)
52.15 zł
149.00 zł (-65%) -
Nowość Promocja
Analiza biznesowa to proces definiowania potrzeb organizacji i opracowywania strategii, które pomagają na nie odpowiadać. Jest niezbędna, by firmy mogły lepiej rozumieć swoje cele, oczekiwania klientów i wymagania rynku. Choć nie stanowi nowego obszaru, popularność zdobywa od niedawna, głównie z powodu powtarzających się problemów w realizacji projektów. Wiele z tych niepowodzeń to skutki zaniedbań właśnie w sferze analizy biznesowej. Na przykład podczas tworzenia nowej aplikacji analiza biznesowa pomoże określić, które funkcje są kluczowe dla użytkowników, i pozwoli uniknąć kosztownych zmian na późniejszych etapach projektu. Analiza biznesowa jest także niezbędna, gdy organizacja wdraża nowe systemy IT – umożliwia ich lepsze dopasowanie do potrzeb pracowników i klientów. Wprowadzenie jej do organizacji zaczyna się od budowania świadomości na poziomie zarządu i kluczowych interesariuszy, a także zdefiniowania celów. Kolejnym krokiem jest zatrudnienie analityków biznesowych, których kompetencje mają bezpośredni wpływ na jakość i sukces dostarczanych rozwiązań. Dobra znajomość analizy biznesowej oferuje wiele możliwości kariery, od stanowisk analityków biznesowych, przez menedżerów projektów, po role w zarządzaniu strategią. Przyjmuje się, że każda osoba w jakimkolwiek stopniu zaangażowana w projekty, przedsięwzięcia i prowadzenie biznesu powinna posiadać choć minimalne kompetencje analityczne.- Videokurs 95 pkt
(39,90 zł najniższa cena z 30 dni)
95.40 zł
159.00 zł (-40%) -
Nowość Promocja
Stanowiący część Microsoft Power Platform zestaw narzędzi Power BI służy przede wszystkim wizualizacji danych i raportowaniu. Ze względu na intuicyjny interfejs i duże możliwości narzędzia te są coraz częściej zaprzęgane do pracy w firmach na całym świecie, w rozmaitych branżach – od finansów, przez marketing, aż po zarządzanie zasobami ludzkimi. Szkoląc się z naszym kursem, poznasz to rozwiązanie od strony praktycznej i zdobędziesz umiejętności gotowe do zastosowania w Twojej codziennej pracy. W ramach nauki opanujesz nie tylko podstawy Power BI, ale też najbardziej zaawansowane funkcje, które oferuje to oprogramowanie, ponieważ będziemy działać na realnych przykładach, z życia wziętych – takich, na które będziesz natrafiać codziennie w swojej praktyce biznesowej.- Videokurs 69 pkt
(39,90 zł najniższa cena z 30 dni)
69.65 zł
199.00 zł (-65%) -
Promocja
Ta książka ułatwi Ci zgłębienie koncepcji kryjących się za działaniem nowoczesnych baz danych. Dzięki niej zrozumiesz, w jaki sposób struktury dyskowe różnią się od tych w pamięci i jak działają algorytmy efektywnego utrzymywania struktur B drzewa na dysku. Poznasz implementacje pamięci masowej o strukturze dziennika. Znajdziesz tu również wyjaśnienie zasad organizacji węzłów w klaster baz danych i specyfiki środowisk rozproszonych. Dowiesz się, jak algorytmy rozproszone poprawiają wydajność i stabilność systemu i jak uzyskać ostateczną spójność danych. Ponadto w książce zaprezentowano koncepcje antyentropii i plotek, służące do zapewniania zbieżności i rozpowszechniania danych, a także mechanizm transakcji utrzymujący spójność logiczną bazy.- PDF + ePub + Mobi
- Druk 44 pkt
(39,90 zł najniższa cena z 30 dni)
44.50 zł
89.00 zł (-50%) -
Promocja
W dynamicznie zmieniającym się świecie biznesu automatyzacja procesów staje się kluczowym elementem sukcesu każdej organizacji. Technologia RPA (ang. robotic process automation) w połączeniu z zarządzaniem projektami i inżynierią oprogramowania tworzy nowy standard w zarządzaniu zasobami i operacjami firmowymi. I tu wkracza Microsoft Power Automate – narzędzie typu low code, które umożliwia tworzenie zautomatyzowanych przepływów pracy bez potrzeby zaawansowanej wiedzy programistycznej. To właśnie jego poznaniu poświęcony jest nasz kurs. Skorzystają z niego zarówno programiści, jak i osoby, które myślą o obraniu tej ścieżki kariery.- Videokurs 65 pkt
(39,90 zł najniższa cena z 30 dni)
65.40 zł
109.00 zł (-40%) -
Promocja
Jeśli myślisz o karierze analityka danych albo starasz się o pracę na stanowisku, na którym będziesz analizować dane, ten kurs jest specjalnie dla Ciebie. Opanujesz dzięki niemu między innymi niezbędne podstawy języka SQL i dowiesz się, jak funkcjonuje i do czego może Ci posłużyć system zarządzania relacyjnymi bazami danych MySQL. Te dwie technologie są ze sobą ściśle powiązane. SQL powstał jako język dziedzinowy używany do tworzenia, modyfikowania relacyjnych baz danych, a także do umieszczania i pobierania danych z tych baz. Z kolei MySQL to jeden z najpopularniejszych systemów zarządzania bazami danych na świecie.- Videokurs 87 pkt
(39,90 zł najniższa cena z 30 dni)
87.15 zł
249.00 zł (-65%) -
Promocja
Statystyka to dziedzina wiedzy, która bazuje na danych – przedmiotem jej zainteresowania są metody ich pozyskiwania i prezentacji, a przede wszystkim analizy. W ostatnich latach mocno zyskuje na popularności i dziś niemal każda uczelnia w Polsce oferuje możliwość studiowania na kierunku związanym ze statystyką i z analizą danych. Razem bowiem stanowią one niezbędne narzędzie pracy rządów, samorządów, firm i korporacji. Co za tym idzie – osoby, które potrafią przeanalizować dane, właściwie je zinterpretować, a następnie na ich bazie podjąć odpowiednie decyzje, należą do najbardziej pożądanych specjalistów na rynku pracy.- Videokurs 39 pkt
(39,90 zł najniższa cena z 30 dni)
39.90 zł
129.00 zł (-69%)
O autorach książki
Jules S. Damji - jest inżynierem oprogramowania dla wielu wiodących firm, takich jak Netscape, Sun Microsystems, Verisign i ProQuest. Zajmuje się systemami rozproszonymi.
Brooke Wenig - kieruje zespołem, który opracowuje potoki uczenia maszynowego. Prowadzi też szkolenia z zakresu rozproszonego uczenia maszynowego.
Tathagata Das - jest członkiem Apache Spark Project Management Committee. Pracuje nad strumieniowaniem strukturalnym i Delta Lake.
Denny Lee - zajmuje się systemami rozproszonymi i inżynierią danych, zwłaszcza dla branży ochrony zdrowia.
Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee - pozostałe książki
-
Promocja
Ready to simplify the process of building data lakehouses and data pipelines at scale? In this practical guide, learn how Delta Lake is helping data engineers, data scientists, and data analysts overcome key data reliability challenges with modern data engineering and management techniques.Authors Denny Lee, Tristen Wentling, Scott Haines, and Pras- ePub + Mobi 254 pkt
(29,90 zł najniższa cena z 30 dni)
254.15 zł
299.00 zł (-15%) -
Promocja
This cookbook presents recipes on leveraging the power of Python and putting it to use in the Apache Spark ecosystem. By the end of this book, you will be able to solve any problem associated with building effective, data-intensive applications and performing machine learning and structured streaming using PySpark.- PDF + ePub + Mobi 107 pkt
(29,90 zł najniższa cena z 30 dni)
107.10 zł
119.00 zł (-10%) -
Promocja
This book will get you to grips with the Spark Python API. You’ll explore how Python can be used with Spark to build scalable and reliable data-intensive applications.- PDF + ePub + Mobi 125 pkt
(29,90 zł najniższa cena z 30 dni)
125.10 zł
139.00 zł (-10%) -
Promocja
Data is bigger, arrives faster, and comes in a variety of formatsâ??and it all needs to be processed at scale for analytics or machine learning. But how can you process such varied workloads efficiently? Enter Apache Spark.Updated to include Spark 3.0, this second edition shows data engineers and data scientists why structure and unification in Spa- ePub + Mobi 228 pkt
(29,90 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł (-15%)
Zobacz pozostałe książki z serii
-
Promocja
Dzięki tej książce zrozumiesz bazowe koncepcje programowania funkcyjnego i przekonasz się, że możesz włączać je do kodu bez rezygnacji z paradygmatu obiektowego. Dowiesz się również, kiedy w swojej codziennej pracy używać takich opcji jak niemutowalność i funkcje czyste i dlaczego warto to robić. Poznasz różne aspekty FP: kompozycję, ekspresyjność, modułowość, wydajność i efektywne manipulowanie danymi. Nauczysz się korzystać z FP w celu zapewnienia wyższego bezpieczeństwa i łatwiejszego utrzymywania kodu. Te wszystkie cenne umiejętności ułatwią Ci pisanie bardziej zwięzłego, rozsądnego i przyszłościowego kodu.- PDF + ePub + Mobi
- Druk 43 pkt
(39,90 zł najniższa cena z 30 dni)
43.50 zł
87.00 zł (-50%) -
Promocja
To drugie, zaktualizowane wydanie przewodnika po systemie Prometheus. Znajdziesz w nim wyczerpujące wprowadzenie do tego oprogramowania, a także wskazówki dotyczące monitorowania aplikacji i infrastruktury, tworzenia wykresów, przekazywania ostrzeżeń, bezpośredniej instrumentacji kodu i pobierania wskaźników pochodzących z systemów zewnętrznych. Zrozumiesz zasady konfiguracji systemu Prometheus, komponentu Node Exporter i menedżera ostrzeżeń Alertmanager. Zapoznasz się też z nowymi funkcjonalnościami języka PromQL, dostawców mechanizmu odkrywania usług i odbiorców menedżera ostrzeżeń Alertmanager. Dokładnie zaprezentowano tu również zagadnienia bezpieczeństwa po stronie serwera, w tym mechanizm TLS i uwierzytelniania podstawowego.- PDF + ePub + Mobi
- Druk 44 pkt
(39,90 zł najniższa cena z 30 dni)
44.50 zł
89.00 zł (-50%) -
Promocja
Ta książka będzie świetnym uzupełnieniem wiedzy o Flutterze i Darcie, sprawdzi się również jako wsparcie podczas rozwiązywania konkretnych problemów. Znalazło się tu ponad sto receptur, dzięki którym poznasz tajniki pisania efektywnego kodu, korzystania z narzędzi udostępnianych przez framework Flutter czy posługiwania się rozwiązaniami dostawców usług chmurowych. Dowiesz się, jak należy pracować z bazami Firebase i platformą Google Cloud. Przy czym poszczególne receptury, poza rozwiązaniami problemów, zawierają również nieco szersze omówienia, co pozwoli Ci lepiej wykorzystać zalety Fluttera i Darta — spójnego rozwiązania do wydajnego budowania aplikacji!- PDF + ePub + Mobi
- Druk 34 pkt
(31,90 zł najniższa cena z 30 dni)
34.50 zł
69.00 zł (-50%) -
Promocja
Ten przewodnik, który docenią programiści i architekci, zawiera wyczerpujące omówienie zagadnień projektowania, funkcjonowania i modyfikowania architektury API. Od strony praktycznej przedstawia strategie budowania i testowania API REST umożliwiającego połączenie oferowanej funkcjonalności na poziomie mikrousług. Opisuje stosowanie bram API i infrastruktury typu service mesh. Autorzy dokładnie przyglądają się kwestiom zapewnienia bezpieczeństwa systemów opartych na API, w tym uwierzytelnianiu, autoryzacji i szyfrowaniu. Sporo miejsca poświęcają również ewolucji istniejących systemów w kierunku API i różnych docelowych platform.- PDF + ePub + Mobi
- Druk 34 pkt
(31,90 zł najniższa cena z 30 dni)
34.50 zł
69.00 zł (-50%) -
Promocja
W tej książce omówiono ponad 20 najprzydatniejszych wzorców projektowych, dzięki którym tworzone aplikacje internetowe będą łatwe w późniejszej obsłudze technicznej i w trakcie skalowania. Poza wzorcami projektowymi przedstawiono wzorce generowania i wydajności działania, których znaczenie dla użytkowania aplikacji jest ogromne. Opisano również nowoczesne wzorce Reacta, między innymi Zaczepy, Komponenty Wyższego Rzędu i Właściwości Generowania. Sporo miejsca poświęcono najlepszym praktykom związanym z organizacją kodu, wydajnością działania czy generowaniem, a także innym zagadnieniom, które pozwalają na podniesienie jakości aplikacji internetowych.- PDF + ePub + Mobi
- Druk 34 pkt
(31,90 zł najniższa cena z 30 dni)
34.50 zł
69.00 zł (-50%) -
Promocja
To gruntownie zaktualizowane i uzupełnione wydanie praktycznego przewodnika po wdrażaniu i testowaniu kontenerów Dockera. Przedstawia proces przygotowania pakietu aplikacji ze wszystkimi ich zależnościami, a także jego testowania, wdrażania, skalowania i utrzymywania w środowiskach produkcyjnych. Zawiera omówienie Docker Compose i trybu Docker Swarm, opis zagadnień związanych z Kubernetes, jak również przykłady optymalizacji obrazów Dockera. W tym wydaniu zaprezentowano ponadto najlepsze praktyki i narzędzie BuildKit, opisano wsparcie obrazów wieloarchitekturowych, kontenerów rootless i uwzględniono wiele innych ważnych informacji.- PDF + ePub + Mobi
- Druk 43 pkt
(39,90 zł najniższa cena z 30 dni)
43.50 zł
87.00 zł (-50%) -
Promocja
To książka przeznaczona dla osób, które pracują ze zbiorami danych. Jest praktycznym przewodnikiem po koncepcjach algebry liniowej, pomyślanym tak, by ułatwić ich zrozumienie i zastosowanie w użytecznych obliczeniach. Poszczególne zagadnienia przedstawiono za pomocą kodu Pythona, wraz z przykładami ich wykorzystania w nauce o danych, uczeniu maszynowym, uczeniu głębokim, symulacjach i przetwarzaniu danych biomedycznych. Dzięki podręcznikowi nauczysz się arytmetyki macierzowej, poznasz istotne rozkłady macierzy, w tym LU i QR, a także rozkład według wartości osobliwych, zapoznasz się też z takimi zagadnieniami jak model najmniejszych kwadratów i analiza głównych składowych.- PDF + ePub + Mobi
- Druk 38 pkt
(34,90 zł najniższa cena z 30 dni)
38.50 zł
77.00 zł (-50%) -
Promocja
Ta książka stanowi wszechstronne omówienie wszystkich bibliotek Pythona, potrzebnych naukowcom i specjalistom pracującym z danymi. Znalazł się tu dokładny opis IPythona, NumPy, Pandas, Matplotlib, Scikit-Learn i innych narzędzi. Podręcznik uwzględnia przede wszystkim ich aspekty praktyczne, dzięki czemu świetnie się sprawdzi w rozwiązywaniu codziennych problemów z manipulowaniem, przekształcaniem, oczyszczaniem i wizualizacją różnych typów danych, a także jako pomoc podczas tworzenia modeli statystycznych i modeli uczenia maszynowego. Docenią go wszyscy, którzy zajmują się obliczeniami naukowymi w Pythonie.- PDF + ePub + Mobi
- Druk 64 pkt
(39,90 zł najniższa cena z 30 dni)
64.50 zł
129.00 zł (-50%) -
Promocja
Oto kolejne wydanie zwięzłego podręcznika dla programistów Javy, który ma ułatwić maksymalne wykorzystanie technologii tego języka w wersji 17. Treść została skrupulatnie przejrzana i uzupełniona o materiał dotyczący nowości w obiektowym modelu Javy. Pierwsza część książki obejmuje wprowadzenie do języka i do pracy na platformie Javy. Druga zawiera opis podstawowych pojęć i interfejsów API, których znajomość jest niezbędna każdemu programiście Javy. Mimo niewielkiej objętości w podręczniku znalazły się liczne przykłady wykorzystania potencjału tego języka programowania, a także zastosowania najlepszych praktyk programistycznych w rzeczywistej pracy.- Druk 44 pkt
(39,90 zł najniższa cena z 30 dni)
44.50 zł
89.00 zł (-50%) -
Promocja
Dzięki tej książce dowiesz się, w jaki sposób uczynić architekturę oprogramowania wystarczająco plastyczną, aby mogła odzwierciedlać zachodzące zmiany biznesowe i technologiczne. W nowym wydaniu rozbudowano pojęcia zmiany kierowanej i przyrostowej, a także przedstawiono najnowsze techniki dotyczące funkcji dopasowania, automatycznego zarządzania architekturą i danych ewolucyjnych. Zaprezentowano praktyki inżynieryjne umożliwiające ewoluowanie systemów oprogramowania, jak również podejścia strukturalne, w tym zasady projektowe, które ułatwiają zarządzanie tą ewolucją. Opisano ponadto, w jaki sposób zasady i praktyki architektury ewolucyjnej wiążą się z różnymi elementami procesu tworzenia oprogramowania.- PDF + ePub + Mobi
- Druk 33 pkt
(29,90 zł najniższa cena z 30 dni)
33.50 zł
67.00 zł (-50%)
Ebooka "Spark. Błyskawiczna analiza danych. Wydanie II" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Spark. Błyskawiczna analiza danych. Wydanie II" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolonych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Spark. Błyskawiczna analiza danych. Wydanie II" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły książki
- Dane producenta
- » Dane producenta:
- Tytuł oryginału:
- Learning Spark: Lightning-Fast Data Analytics, 2nd Edition
- Tłumaczenie:
- Robert Górczyński
- ISBN Książki drukowanej:
- 978-83-283-9914-3, 9788328399143
- Data wydania książki drukowanej :
- 2023-02-07
- ISBN Ebooka:
- 978-83-283-9915-0, 9788328399150
- Data wydania ebooka :
- 2023-02-07 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Format:
- 165x235
- Numer z katalogu:
- 185837
- Rozmiar pliku Pdf:
- 7.2MB
- Rozmiar pliku ePub:
- 10.8MB
- Rozmiar pliku Mobi:
- 21.8MB
- Pobierz przykładowy rozdział PDF »
- Przykłady na ftp » 76MB
Helion SA
ul. Kościuszki 1C
41-100 Gliwice
e-mail: gpsr@helion.pl
Spis treści książki
- Geneza Sparka
- Big data i przetwarzanie rozproszone w Google
- Hadoop w Yahoo!
- Wczesne lata Sparka w AMPLab
- Czym jest Apache Spark?
- Szybkość
- Łatwość użycia
- Modułowość
- Rozszerzalność
- Ujednolicona analityka
- Komponenty Apache Spark tworzą ujednolicony stos
- Spark MLlib
- Wykonywanie rozproszone w Apache Spark
- Z punktu widzenia programisty
- Kto używa Sparka i w jakim celu?
- Popularność w społeczności i dalsza ekspansja
- Krok 1. - pobranie Apache Spark
- Pliki i katalogi Sparka
- Krok 2. - używanie powłoki Scali lub PySparka
- Używanie komputera lokalnego
- Krok 3. - poznanie koncepcji aplikacji Apache Spark
- Aplikacja Sparka i SparkSession
- Zlecenia Sparka
- Etapy Sparka
- Zadania Sparka
- Transformacje, akcje i późna ocena
- Transformacje wąskie i szerokie
- Spark UI
- Pierwsza niezależna aplikacja
- Zliczanie cukierków M&M's
- Tworzenie niezależnych aplikacji w Scali
- Podsumowanie
- Spark - co się kryje za akronimem RDD?
- Strukturyzacja Sparka
- Kluczowe zalety i wartość struktury
- API DataFrame
- Podstawowe typy danych Sparka
- Strukturalne i złożone typy danych Sparka
- Schemat i tworzenie egzemplarza DataFrame
- Kolumny i wyrażenia
- Rekord
- Najczęściej przeprowadzane operacje z użyciem DataFrame
- Przykład pełnego rozwiązania wykorzystującego DataFrame
- API Dataset
- Obiekty typowane i nietypowane oraz ogólne rekordy
- Tworzenie egzemplarza Dataset
- Operacje na egzemplarzu Dataset
- Przykład pełnego rozwiązania wykorzystującego Dataset
- Egzemplarz DataFrame kontra Dataset
- Kiedy używać RDD?
- Silnik Spark SQL
- Optymalizator Catalyst
- Podsumowanie
- Używanie Spark SQL w aplikacji Sparka
- Przykłady podstawowych zapytań
- Widoki i tabele SQL
- Tabele zarządzane kontra tabele niezarządzane
- Tworzenie baz danych i tabel SQL
- Tworzenie widoku
- Wyświetlanie metadanych
- Buforowanie tabel SQL
- Wczytywanie zawartości tabeli do egzemplarza DataFrame
- Źródła danych dla egzemplarzy DataFrame i tabel SQL
- DataFrameReader
- DataFrameWriter
- Parquet
- JSON
- CSV
- Avro
- ORC
- Obrazy
- Pliki binarne
- Podsumowanie
- Spark SQL i Apache Hive
- Funkcje zdefiniowane przez użytkownika
- Wykonywanie zapytań z użyciem powłoki Spark SQL, Beeline i Tableau
- Używanie powłoki Spark SQL
- Praca z narzędziem Beeline
- Praca z Tableau
- Zewnętrzne źródła danych
- Bazy danych SQL i JDBC
- PostgreSQL
- MySQL
- Azure Cosmos DB
- MS SQL Server
- Inne zewnętrzne źródła danych
- Funkcje wyższego rzędu w egzemplarzach DataFrame i silniku Spark SQL
- Opcja 1. - konwersja struktury
- Opcja 2. - funkcja zdefiniowana przez użytkownika
- Wbudowane funkcje dla złożonych typów danych
- Funkcje wyższego rzędu
- Najczęściej wykonywane operacje w DataFrame i Spark SQL
- Suma
- Złączenie
- Okno czasowe
- Modyfikacje
- Podsumowanie
- Pojedyncze API dla Javy i Scali
- Klasy case Scali i JavaBean dla egzemplarzy Dataset
- Praca z egzemplarzem Dataset
- Tworzenie przykładowych danych
- Transformacja przykładowych danych
- Zarządzanie pamięcią podczas pracy z egzemplarzami Dataset i DataFrame
- Kodeki egzemplarza Dataset
- Wewnętrzny format Sparka kontra format obiektu Javy
- Serializacja i deserializacja
- Koszt związany z używaniem egzemplarza Dataset
- Strategie pozwalające obniżyć koszty
- Podsumowanie
- Optymalizacja i dostrajanie Sparka w celu zapewnienia efektywności działania
- Wyświetlanie i definiowanie konfiguracji Apache Spark
- Skalowanie Sparka pod kątem ogromnych obciążeń
- Buforowanie i trwałe przechowywanie danych
- DataFrame.cache()
- DataFrame.persist()
- Kiedy buforować i trwale przechowywać dane?
- Kiedy nie buforować i nie przechowywać trwale danych?
- Rodzina złączeń w Sparku
- Złączenie BHJ
- Złączenie SMJ
- Spark UI
- Karty narzędzia Spark UI
- Podsumowanie
- Ewolucja silnika przetwarzania strumieni w Apache Spark
- Przetwarzanie strumieniowe mikropartii
- Cechy mechanizmu Spark Streaming (DStreams)
- Filozofia strumieniowania strukturalnego
- Model programowania strumieniowania strukturalnego
- Podstawy zapytania strumieniowania strukturalnego
- Pięć kroków do zdefiniowania zapytania strumieniowego
- Pod maską aktywnego zapytania strumieniowanego
- Odzyskiwanie danych po awarii i gwarancja "dokładnie raz"
- Monitorowanie aktywnego zapytania
- Źródło i ujście strumieniowanych danych
- Pliki
- Apache Kafka
- Niestandardowe źródła strumieni i ujść danych
- Transformacje danych
- Wykonywanie przyrostowe i stan strumieniowania
- Transformacje bezstanowe
- Transformacje stanowe
- Agregacje strumieniowania
- Agregacja nieuwzględniająca czasu
- Agregacje z oknami czasowymi na podstawie zdarzeń
- Złączenie strumieniowane
- Złączenie strumienia i egzemplarza statycznego
- Złączenia między egzemplarzami strumieniowanymi
- Dowolne operacje związane ze stanem
- Modelowanie za pomocą mapGroupsWithState() dowolnych operacji stanu
- Stosowanie limitów czasu do zarządzania nieaktywnymi grupami
- Generalizacja z użyciem wywołania flatMapGroupsWithState()
- Dostrajanie wydajności działania
- Podsumowanie
- Waga optymalnego rozwiązania w zakresie pamięci masowej
- Bazy danych
- Krótkie wprowadzenie do SQL
- Odczytywanie i zapisywanie informacji w bazie danych za pomocą Apache Spark
- Ograniczenia baz danych
- Jezioro danych
- Krótkie wprowadzenie do jezior danych
- Odczytywanie i zapisywanie danych jeziora danych za pomocą Apache Spark
- Ograniczenia jezior danych
- Lakehouse - następny krok w ewolucji rozwiązań pamięci masowej
- Apache Hudi
- Apache Iceberg
- Delta Lake
- Tworzenie repozytorium danych za pomocą Apache Spark i Delta Lake
- Konfiguracja Apache Spark i Delta Lake
- Wczytywanie danych do tabeli Delta Lake
- Wczytywanie strumieni danych do tabeli Delta Lake
- Zarządzanie schematem podczas zapisu w celu zapobiegania uszkodzeniu danych
- Ewolucja schematu w celu dostosowania go do zmieniających się danych
- Transformacja istniejących danych
- Audyt zmian danych przeprowadzany za pomocą historii operacji
- Wykonywanie zapytań do poprzednich migawek tabeli dzięki funkcjonalności podróży w czasie
- Podsumowanie
- Czym jest uczenie maszynowe?
- Nadzorowane uczenie maszynowe
- Nienadzorowane uczenie maszynowe
- Dlaczego Spark dla uczenia maszynowego?
- Projektowanie potoków uczenia maszynowego
- Wczytywanie i przygotowywanie danych
- Tworzenie zbiorów danych - testowego i treningowego
- Przygotowywanie cech za pomocą transformerów
- Regresja liniowa
- Stosowanie estymatorów do tworzenia modeli
- Tworzenie potoku
- Ocena modelu
- Zapisywanie i wczytywanie modeli
- Dostrajanie hiperparametru
- Modele oparte na drzewach
- k-krotny sprawdzian krzyżowy
- Optymalizacja potoku
- Podsumowanie
- Zarządzanie modelem
- MLflow
- Opcje wdrażania modelu za pomocą MLlib
- Wsadowe
- Strumieniowane
- Wzorce eksportu modelu dla rozwiązania niemalże w czasie rzeczywistym
- Wykorzystanie Sparka do pracy z modelami, które nie zostały utworzone za pomocą MLlib
- Zdefiniowane przez użytkownika funkcje pandas
- Spark i rozproszone dostrajanie hiperparametru
- Podsumowanie
- Spark Core i Spark SQL
- Dynamiczne oczyszczanie partycji
- Adaptacyjne wykonywanie zapytań
- Podpowiedzi dotyczące złączeń SQL
- API wtyczek katalogu i DataSourceV2
- Planowanie z użyciem akceleratorów
- Strumieniowanie strukturalne
- PySpark, zdefiniowane przez użytkownika funkcje pandas i API funkcji pandas
- Usprawnione zdefiniowane przez użytkownika funkcje pandas zapewniające obsługę podpowiedzi typów w Pythonie
- Obsługa iteratora w zdefiniowanych przez użytkownika funkcjach pandas
- Nowe API funkcji pandas
- Zmieniona funkcjonalność
- Obsługiwane języki
- Zmiany w API DataFrame i Dataset
- Polecenia SQL EXPLAIN i DataFrame
- Podsumowanie
Przedmowa
Wprowadzenie
1. Wprowadzenie do Apache Spark - ujednolicony silnik analityczny
2. Pobranie Apache Spark i rozpoczęcie pracy
3. API strukturalne Apache Spark
4. Spark SQL i DataFrame - wprowadzenie do wbudowanych źródeł danych
5. Spark SQL i DataFrame - współpraca z zewnętrznymi źródłami danych
6. Spark SQL i Dataset
7. Optymalizacja i dostrajanie aplikacji Sparka
8. Strumieniowanie strukturalne
9. Tworzenie niezawodnych jezior danych za pomocą Apache Spark
10. Uczenie maszynowe z użyciem biblioteki MLlib
11. Stosowanie Apache Spark do wdrażania potoków uczenia maszynowego oraz ich skalowania i zarządzania nimi
12. Epilog - Apache Spark 3.0
Helion - inne książki
-
Nowość Promocja
Wirtualizacja umożliwia równoczesne uruchomienie różnych systemów operacyjnych na jednym sprzęcie. Dzięki temu można lepiej wykorzystać dostępną moc obliczeniową i zasoby. Oczywiście, by móc czerpać z dobrodziejstw wirtualizacji, potrzeba odpowiednich narzędzi. Jednym z najpopularniejszych programów wspierających wirtualizację jest VirtualBox. Aby łatwiej zarządzać wirtualnymi maszynami, skuteczniej monitorować ich wydajność, sprawnie je konserwować, warto nauczyć się używać właśnie tego narzędzia. Najszybciej zrobisz to z naszym poradnikiem.- PDF + ePub + Mobi
- Druk 27 pkt
(26,90 zł najniższa cena z 30 dni)
27.45 zł
54.90 zł (-50%) -
Nowość Promocja
Ta książka jest kolejnym, starannie zaktualizowanym wydaniem cenionego i lubianego poradnika, dzięki któremu Twoja praca w języku C# stanie się przyjemna i wydajna. Znajdziesz tu liczne przykłady prezentujące nowe elementy .NET 8: aliasy typów i konstruktory podstawowe, zapewniające spójny i czytelny kod. Nauczysz się stosować klauzule ochronne i uproszczoną implementację pamięci podręcznej w ASP.NET Core 8. Poznasz też nową metodę kompilacji AOT, dzięki której publikowane serwisy zajmują mniej pamięci i szybciej się uruchamiają. Na zakończenie zaznajomisz się również z technologią Blazor Full Stack, będącą nowym, zunifikowanym modelem elastycznego projektowania aplikacji sieciowych.- PDF + ePub + Mobi
- Druk 89 pkt
(39,90 zł najniższa cena z 30 dni)
89.50 zł
179.00 zł (-50%) -
Nowość Promocja
Dzięki tej książce nauczysz się stosować w praktyce zasady Zero Trust: nic nie jest oczywiste, a każde żądanie dostępu ma być sprawdzone i autoryzowane. Poznasz najważniejsze koncepcje tego modelu, takie jak silnik zaufania, silnik zasad czy agregat kontekstowy. Dowiesz się, jak budować zaufanie między różnymi elementami sieci, bazując na istniejących technikach. Spojrzysz na model Zero Trust z punktu widzenia hakera, a następnie zagłębisz się w szczegóły architektur, standardów i struktur Zero Trust opracowanych przez organizacje NIST, CISA czy DoD. W ten sposób zrozumiesz model zerowego zaufania z perspektywy wiodących instytucji w branży. Przeanalizujesz też wpływ sztucznej inteligencji, komputerów kwantowych i technologii ochrony prywatności na model Zero Trust.- PDF + ePub + Mobi
- Druk 38 pkt
(34,90 zł najniższa cena z 30 dni)
38.50 zł
77.00 zł (-50%) -
Nowość Promocja
Witaj w internecie rzeczy! Tutaj możliwości ogranicza jedynie Twoja wyobraźnia - a także to, czy potrafisz sprawnie się poruszać po świecie, którym rządzą mikrokontrolery. Dzisiejsze rozwiązania stosowane w modelach IoT stanowią klucz do zrozumienia i kształtowania przyszłości. Stosowane w nich układy ESP8266 i ESP32 wyróżniają się wszechstronnością, niskim kosztem i potężną mocą obliczeniową. To czyni je idealnym narzędziem dla entuzjastów, hobbystów i profesjonalistów pragnących testować swoje pomysły w praktyce.- PDF + ePub + Mobi
- Druk 24 pkt
(19,90 zł najniższa cena z 30 dni)
24.95 zł
49.90 zł (-50%) -
Nowość Promocja
Microsoft konsekwentnie doskonali się w tworzeniu wyjątkowych technologii i Azure jest tego świetnym przykładem. Pozwala nie tylko na rozwijanie natywnych aplikacji chmurowych, ale również na efektywną migrację starszych systemów, wdrażanie rozwiązań hybrydowych i modernizację istniejącego oprogramowania pod kątem skalowalności. Skorzystanie z pełni możliwości Azure wymaga jednak dobrego zrozumienia koncepcji przetwarzania w chmurze.- PDF + ePub + Mobi
- Druk 59 pkt
(39,90 zł najniższa cena z 30 dni)
59.50 zł
119.00 zł (-50%) -
Nowość Promocja
Dzięki tej praktycznej książce zrozumiesz podstawowe koncepcje związane z biblioteką React, takie jak składnia JSX, wzorce zaawansowane, wirtualny model DOM, mechanizm rekoncyliacji Reacta, a także zaawansowane techniki optymalizacji. W rzeczywistości jest to dość złożona biblioteka, jednak tutaj jej tajniki zostały wyjaśnione w wyjątkowo przystępny sposób. A to oznacza, że szybko i dogłębnie zrozumiesz mechanizmy kryjące się za działaniem Reacta, zdobędziesz umiejętności pozwalające na tworzenie intuicyjnego kodu Reacta, zrozumiesz jego niuanse i koncepcje ― i przejdziesz na zupełnie nowy poziom biegłości.- PDF + ePub + Mobi
- Druk 39 pkt
(34,90 zł najniższa cena z 30 dni)
39.50 zł
79.00 zł (-50%) -
Nowość Promocja
Dzięki tej książce zorientujesz się, że utrzymanie kontroli nad architekturą w dużej mierze zależy od zastosowanego stylu architektonicznego. Zrozumiesz też wady konwencjonalnej architektury warstwowej i zapoznasz się z zaletami stylów koncentrujących się na dziedzinie, takich jak architektura heksagonalna. Dowiesz się także, jak można ją wyrazić w kodzie źródłowym. Poznasz szczegóły różnych strategii mapowania między warstwami architektury heksagonalnej, a ponadto prześledzisz, jak różne elementy architekturalne łączą się w jedną aplikację. Bazując na stylu architektury heksagonalnej, nauczysz się tworzyć intuicyjne w późniejszej obsłudze technicznej aplikacje internetowe. Szybko się przekonasz, że wiedza zdobyta w trakcie lektury pozwoli Ci na tworzenie wysokojakościowych aplikacji, które przetrwają próbę czasu.- PDF + ePub + Mobi
- Druk 24 pkt
(19,90 zł najniższa cena z 30 dni)
24.95 zł
49.90 zł (-50%) -
Nowość Promocja
Koncepcje te zostały przystępnie wyjaśnione właśnie w tej książce. W szczególności zapoznasz się z praktycznymi aspektami probabilistyki, statystyki, algebry liniowej i rachunku różniczkowego. Prezentacji tych zagadnień towarzyszą fragmenty kodu w Pythonie i praktyczne przykłady zastosowań w uczeniu głębokim. Rozpoczniesz od zapoznania się z podstawami, takimi jak twierdzenie Bayesa, a następnie przejdziesz do bardziej zaawansowanych zagadnień, w tym uczenia sieci neuronowych przy użyciu wektorów, macierzy i pochodnych. Dwa ostatnie rozdziały dadzą Ci szansę użycia nowej wiedzy do zaimplementowania propagacji wstecznej i metody gradientu prostego — dwóch podstawowych algorytmów napędzających rozwój sztucznej inteligencji.- Druk 44 pkt
(39,90 zł najniższa cena z 30 dni)
44.50 zł
89.00 zł (-50%) -
Nowość Promocja
Ta pozycja, podobnie jak inne z serii Rusz głową!, została przygotowana zgodnie z jedyną w swoim rodzaju metodyką nauczania, wykorzystującą zasady funkcjonowania ludzkiego mózgu. Dzięki zagadkom, tajemniczym historiom, angażującym ćwiczeniom i przystępnie podanej wiedzy bez trudu przyswoisz nawet dość złożone koncepcje, takie jak programowanie zorientowane obiektowo, aplikacje sieciowe czy uczenie maszynowe. Znajdziesz tu zabawne i niekonwencjonalne ilustracje, świetne analogie, a w toku nauki krok po kroku zbudujesz własną aplikację. Przekonasz się, że to absolutnie wyjątkowy i niezwykle skuteczny podręcznik!- Druk 64 pkt
(39,90 zł najniższa cena z 30 dni)
64.50 zł
129.00 zł (-50%) -
Nowość Promocja
Wyjątkowość tej książki polega na pragmatyzmie: opisano w niej, jak wyglądają realia pracy projektanta UX i jak bardzo potrafią być zagmatwane. Zapoznasz się z różnymi kontekstami i sytuacjami związanymi z projektowaniem UX, a także z ograniczeniami, jakie temu towarzyszą. To przygotuje Cię do prawdziwych wyzwań związanych z osobami zaangażowanymi w projekty. Poznasz też realia działalności firm i znaczenie aspektów biznesowych i finansowych. Posiądziesz cenną umiejętność godzenia celów komercyjnych ze swoją pracą bez uszczerbku dla empatii i etyki projektowania.- PDF + ePub + Mobi
- Druk 44 pkt
(39,90 zł najniższa cena z 30 dni)
44.50 zł
89.00 zł (-50%)
Dzięki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep@ebookpoint.pl
Książka drukowana
Oceny i opinie klientów: Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee (3) Weryfikacja opinii następuje na podstawie historii zamowień na koncie Użytkownika umiejszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.
(2)
(0)
(0)
(1)
(0)
(0)
więcej opinii