Hadoop. Komplety przewodnik. Analiza i przechowywanie danych Tom White

Czasowo niedostępna
Promocja
+44 pkt

Hadoop. Komplety przewodnik. Analiza i przechowywanie danych Tom White - okladka książki

Zajrzyj do książki

Autor:: Tom White
Wydawnictwo:: Helion
Wydawnictwo:: Helion
Ocena:: 5.5/6 Opinie: 2
Stron:: 672
Druk:: oprawa miękka
Dostępne formaty::      PDF

     ePub

     Mobi

Czytaj fragment

Książka

89,00 zł

Powiadom mnie, gdy książka będzie dostępna

Ebook

44,50 zł ~~89,00 zł~~ (-50%)

44,50 zł najniższa cena z 30 dni

Dodaj do koszyka Dostępny natychmiast po opłaceniu zakupu lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Czego się nauczysz?

Architektury platformy Hadoop, w tym HDFS i YARN
Tworzenia i uruchamiania aplikacji w modelu MapReduce
Przechowywania, kompresji i serializacji dużych zbiorów danych
Budowania i zarządzania klastrem Hadoop oraz konfiguracji środowiska
Monitorowania, konserwacji i zabezpieczania platformy Hadoop
Wykorzystywania formatów danych Avro i Parquet w przetwarzaniu Big Data
Pobierania, importowania i eksportowania danych z użyciem Flume i Sqoop
Przetwarzania i analizy danych za pomocą narzędzi Pig, Hive, Crunch i Spark
Implementowania i optymalizacji zadań MapReduce w Javie, Pythonie i Ruby
Tworzenia funkcji UDF i UDAF oraz korzystania z języka HiveQL i Pig Latin
Współpracy z rozproszoną bazą danych HBase i systemem ZooKeeper
Realizacji złożonych przepływów pracy z użyciem Apache Oozie i JobControl
Zarządzania konfiguracją i odpornością na błędy w środowisku rozproszonym
Integracji i analizy danych w zastosowaniach biznesowych i biologicznych
Wykorzystywania Hadoop w projektach naukowych, np. genomika i analiza DNA
Stosowania narzędzi i bibliotek wspierających rozwój aplikacji Big Data

Analiza danych z Hadoopem — i wszystko staje się prostsze!

Podstawy Hadoopa i model MapReduce
Praca z Hadoopem, budowa klastra i zarządzanie platformą
Dodatki zwiększające funkcjonalność Hadoopa

Platforma Apache Hadoop to jedno z zaawansowanych narzędzi informatycznych. Dzięki niej można przeprowadzać różne operacje na dużych ilościach danych i znacznie skrócić czas wykonywania tych działań. Wszędzie tam, gdzie potrzebne jest szybkie sortowanie, obliczanie i archiwizowanie danych — np. w dużych międzynarodowych sklepach internetowych, serwisach społecznościowych lub wyszukiwarkach, takich jak Amazon, Facebook, Yahoo!, Apache Hadoop sprawdza się znakomicie. Jeśli potrzebne Ci narzędzie do poważnej analizy dużych zbiorów danych, nie znajdziesz lepszego rozwiązania!

Tę książkę napisał wytrawny znawca i współtwórca Hadoopa. Przedstawia w niej wszystkie istotne mechanizmy działania platformy i pokazuje, jak efektywnie jej używać. Dowiesz się stąd, do czego służą model MapReduce oraz systemy HDFS i YARN. Nauczysz się budować aplikacje oraz klastry. Poznasz dwa formaty danych, a także wykorzystasz narzędzia do ich pobierania i transferu. Sprawdzisz, jak wysokopoziomowe narzędzia do przetwarzania danych współdziałają z Hadoopem. Zorientujesz się, jak działa rozproszona baza danych i jak zarządzać konfiguracją w środowisku rozproszonym. Przeczytasz również o nowinkach w Hadoopie 2 i prześledzisz studia przypadków ilustrujące rolę Hadoopa w systemach służby zdrowia i przy przetwarzaniu danych o genomie.

Hadoop i model MapReduce
Systemy HDFS i YARN
Operacje wejścia – wyjścia w platformie Hadoop
Typy, formaty, funkcje i budowa aplikacji w modelu MapReduce
Zarządzanie platformą Hadoop
Avro, Parquet, Flume i Sqoop — metody pracy z danymi
Pig, Hive, Crunch i Spark — wysokopoziomowe narzędzia do przetwarzania danych
HBase i ZooKeeper — praca w środowisku rozproszonym
Integrowanie danych w firmie Cerner
Nauka o danych biologicznych
Cascading

Hadoop — rozwiązanie na miarę wyzwań globalnych!

Tom White — jeden z czołowych ekspertów w zakresie obsługi platformy Hadoop. Członek organizacji Apache Software Foundation, inżynier oprogramowania w firmie Cloudera.

Pokaż opis z okładki oryginału »

Przygotuj się do odblokowania możliwości dostępnych Ci danych. Dzięki czwartemu wydaniu tego kompletnego przewodnika nauczysz się budować i utrzymywać niezawodne, skalowalne i rozproszone systemu oparte na platformie Apache Hadoop. Ta książka doskonale nadaje się dla programistów, którzy chcą analizować zbiory danych dowolnej wielkości, a także dla administratorów zamierzających konfigurować i uruchamiać klastry oparte na Hadoopie.

Autor, Tom White, omawia wyłącznie wersję Hadoop 2 i przedstawia nowe rozdziały poświęcone systemowi YARN i kilku projektom związanym z Hadoopem (takim jak Parquet, Flume, Crunch i Spark). Przeczytasz tu o nowych zmianach w Hadoopie, a także poznasz nowe studia przypadków ilustrujące rolę Hadoopa w systemach służby zdrowia i przy przetwarzaniu danych o genomie.

Poznaj podstawowe komponenty takie jak model MapReduce oraz systemy HDFS i YARN
Zapoznaj się szczegółowo z modelem MapReduce, w tym z krokami potrzebnymi do budowania aplikacji przy jego użyciu
Skonfiguruj i modyfikuj oparty na Hadoopie klaster z systemem HDFS i modelem MapReduce pracującymi w systemie YARN
Poznaj dwa formaty danych — Avro (używany do serializowania danych) i Parquet (przeznaczony dla danych zagnieżdżonych)
Wykorzystaj narzędzia do pobierania danych takie jak Flume (stosowane dla strumieni danych) i Sqoop (służące do masowego transferu danych)
Dowiedz się, jak wysokopoziomowe narzędzia do przetwarzania danych (takie jak Pig, Hive, Crunch i Spark) współdziałają z Hadoopem
Poznaj rozproszoną bazę danych HBase i przeznaczoną do zarządzania konfiguracją w środowisku rozproszonym usługę ZooKeeper

Tom White jest inżynierem w firmie Cloudera i członkiem organizacji Apache Software Foundation. Od 2007 roku uczestniczy w pracach nad platformą Apache Hadoop. Jest autorem wielu artykułów z serwisów oreilly.com, java.net i developerWorks firmy IBM. Ponadto często prowadzi wykłady na temat Hadoopa na konferencjach branżowych.

„Teraz masz okazję uczyć się Hadoopa od mistrza — nie tylko z dziedziny technologii, ale też w obszarze zdrowego rozsądku i przystępnego języka”.

— Doug Cutting z firmy Cloudera

Wybrane bestsellery

Zobacz pozostałe książki z serii

Ebooka "Hadoop. Komplety przewodnik. Analiza i przechowywanie danych" przeczytasz na:

czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
systemach Windows, MacOS i innych

systemach Windows, Android, iOS, HarmonyOS
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi

Masz pytania? Zajrzyj do zakładki Pomoc »

Oceny i opinie klientów: Hadoop. Komplety przewodnik. Analiza i przechowywanie danych Tom White

(2)

6
(1)
5
(1)
4
(0)
3
(0)
2
(0)
1
(0)

5.5

Bardzo dobra pozycja. Przystępna. Ale przede wszystkim dobrze przetłumaczona - to naprawdę ważne. Wierzę, że to nie przypadek i że Helion dba o swoich czytelników.

Opinia: anonimowa Opinia dodana: 2017-05-16 Ocena: 6

Opinia niepotwierdzona zakupem

Opinia dotyczy produktu: ksiązka drukowana

Czy opinia była pomocna:

TAK (0) NIE (0)
Czytam tą książkę i dosłownie ją połykam. Nie skończyłem jej czytać, ale po pierwszych rozdziałach stwierdzam, że jest dobra.

Opinia: Piot Chwil Opinia dodana: 2016-02-11 Ocena: 5

Opinia potwierdzona zakupem

Opinia dotyczy produktu: ksiązka drukowana

Czy opinia była pomocna:

TAK (0) NIE (0)

więcej opinii

Recenzje książki: Hadoop. Komplety przewodnik. Analiza i przechowywanie danych (1)

Zastanawialiście się kiedyś, jakie programowe i sprzętowe rozwiązania są wykorzystywane przez gigantów IT? Weźmy np. takie Google, które codziennie obsługuje setki milionów zapytań, a oprócz tego indeksuje każdą nowo dodaną stronę. Trudno to sobie nawet wyobrazić, ale w takich sytuacjach wykorzystywane są naprawdę potężne farmy serwerów oraz skalowalne rozwiązania, które są w stanie reagować na wszelkiej maści nagłe piki - np. ważne zdarzenia na świecie.

Czy wyobrażacie sobie jak w tej sytuacji składowane są dane? Jeśli pomyśleć, że taki Google może mieć nawet tysiące serwerów je przechowujących? Z pewnością trudno było by w takiej sytuacji wykorzystać rozwiązania typu RDBMS, które często nie są dobrze przygotowane do takiej skali operacji oraz do nieustannej obsługi zapytań SELECT.

Dlatego od jakiegoś czasu coraz większy nacisk stawia się na tzw. rozwiązania typu NoSQL (takie jak wspomniany w tytule Hadoop), które po prostu lepiej radzą sobie w dzisiejszych czasach m.in. dzięki lepszemu wykorzystaniu sprzętu, większej skalowalności oraz braku nacisku na normalizację danych.

Dziś mam przyjemność zrecenzować Wam jedną z nie wielu dostępnych po polsku książek, poświęconych tej tematyce. Zapraszam do recenzji:-)

DLA KOGO?
Autor sam nie klasyfikuje dla kogo jest ta książka, ale w moim odczuciu nada się ona zarówno dla początkujących jak i średnio-zaawansowanych użytkowników rozwiązań NoSQL. Do czytania tego tytułu, nie jest potrzebna jakaś szczegółowa wiedza na temat baz danych - aczkolwiek pewne pojęcie nie zaszkodzi.
Przydatna za to okaże się przynajmniej podstawowa znajomość języków programowania. Przykłady wykorzystania Hadoopa napisane są w Javie, Pythonie i Ruby, z czego w książce dominuje ta pierwsza technologia. Hadoop oczywiście współpracuje również z innymi językami - m.in. z C#, ale w tej pozycji nie znajdziecie przykładów kodu dla tego języka.

ZAWARTOŚĆ
Autorem książki jest Tom White, który jest długoletnim współtwórcą projektu Hadoop. Można więc powiedzieć, że treść zawarta w pozycji pochodzi z pierwszej ręki:) Cały materiał umieszczono w 24 rozdziałach, w których można znaleźć informacje o modelu Map-Reduce, a także rozdziały o różnych projektach pobocznych/powiązanych z Hadoopem.
Sama książka napisana została w taki sposób, że do jej lektury możemy podejść na różne sposoby. Poszczególne rozdziały zostały uporządkowane w tematyczne części, które możemy czytać w różnej kolejności. Nie jest to więc tytuł, który skupia się na studium jednego przypadku i pozwala na zbudowanie dużego projektu, ale bardziej koncentruje się na konkretnych elementach samego rozwiązania. Nawet instalacja Hadoopa została umieszczona w sekcji dodatków, dlatego też już od pierwszego rozdziału, autor skupia się na konkretach.
Nie jestem ekspertem w rozwiązaniach typu NoSQL. Powiem więcej - jest to dla mnie trochę niezbadany obszar, dlatego nie jestem w stanie ocenić tej książki pod względem merytorycznym. Ale jedno mogę powiedzieć - tytuł czyta się bardzo przyjemnie i zdecydowanie widać, że autor wie o czym pisze i nie owija w bawełnę.

PODSUMOWANIE
Hadoop jest jednym z popularniejszych rozwiązań NoSQL i zdecydowanie warto dać mu szansę, jeśli planujesz zgłębić ten obszar baz danych. To samo można powiedzieć o tej książce. Jest to jedna z niewielu pozycji poświęcona temu rozwiązaniu, która jest dostępna w języku polskim, dlatego też jeśli Twój angielski jest umiarkowanie dobry, to zdecydowanie warto dać jej szansę. Oczywiście warto zwrócić uwagę na język przykładowych fragmentów kodu. Poniżej link, w którym znajdziecie fragment książki oraz spis treści.

Recenzja: altcontroldelete.pl Jerzy Piechowiak; 2016-04-16

Recenzja dotyczy produktu: ksiązka drukowana

Czy recenzja była pomocna:

TAK (0) NIE (0)

Szczegóły książki

Dane producenta: »
Tytuł oryginału:: Hadoop: The Definitive Guide, 4th Edition
Tłumaczenie:: Tomasz Walczak
ISBN Książki drukowanej:: 978-83-283-1457-3, 9788328314573
Data wydania książki drukowanej :: 2015-11-06
ISBN Ebooka:: 978-83-283-1460-3, 9788328314603
Data wydania ebooka :: 2015-11-06 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
Format:: 168x237
Numer z katalogu:: 38625
Rozmiar pliku Pdf:: 8.5MB
Rozmiar pliku ePub:: 7.4MB
Rozmiar pliku Mobi:: 17.4MB
Pobierz przykładowy rozdział PDF »
Przykłady na ftp » 3.2MB

Zgłoś erratę

Kategorie

Kliknij, aby zgłosić błędnie przypisaną kategorię »

Informatyka » Bazy danych
Informatyka » Biznes IT » Big data
Informatyka » Bazy danych » Inne
Informatyka » Biznes IT » Big data » Analiza danych

Dostępność produktu

Produkt nie został jeszcze oceniony pod kątem ułatwień dostępu lub nie podano żadnych informacji o ułatwieniach dostępu lub są one niewystarczające. Prawdopodobnie Wydawca/Dostawca jeszcze nie umożliwił dokonania walidacji produktu lub nie przekazał odpowiednich informacji na temat jego dostępności.

Spis treści książki

Przedmowa (17)

Wprowadzenie (19)

Kwestie porządkowe (20)
Co nowego znajdziesz w wydaniu czwartym? (20)
Konwencje stosowane w tej książce (21)
Korzystanie z przykładowego kodu (21)
Podziękowania (22)

CZĘŚĆ I. PODSTAWY PLATFORMY HADOOP (25)

Rozdział 1. Poznaj platformę Hadoop (27)

Dane! (27)
Przechowywanie i analizowanie danych (29)
Przetwarzanie w zapytaniach wszystkich danych (30)
Poza przetwarzanie wsadowe (30)
Porównanie z innymi systemami (31)
- Systemy RDBMS (32)
- Przetwarzanie sieciowe (33)
- Przetwarzanie z udziałem ochotników (34)
Krótka historia platformy Apache Hadoop (35)
Zawartość książki (38)

Rozdział 2. Model MapReduce (41)

Zbiór danych meteorologicznych (41)
- Format danych (41)
Analizowanie danych za pomocą narzędzi uniksowych (42)
Analizowanie danych za pomocą Hadoopa (44)
- Mapowanie i redukcja (44)
- Model MapReduce w Javie (45)
Skalowanie (51)
- Przepływ danych (51)
- Funkcje łączące (55)
- Wykonywanie rozproszonego zadania w modelu MapReduce (56)
Narzędzie Streaming Hadoop (57)
- Ruby (57)
- Python (59)

Rozdział 3. System HDFS (61)

Projekt systemu HDFS (61)
Pojęcia związane z systemem HDFS (63)
- Bloki (63)
- Węzły nazw i węzły danych (64)
- Zapisywanie bloków w pamięci podręcznej (65)
- Federacje w systemie HDFS (65)
- Wysoka dostępność w systemie HDFS (66)
Interfejs uruchamiany z wiersza poleceń (68)
- Podstawowe operacje w systemie plików (69)
Systemy plików w Hadoopie (70)
- Interfejsy (71)
Interfejs w Javie (74)
- Odczyt danych na podstawie adresu URL systemu Hadoop (74)
- Odczyt danych za pomocą interfejsu API FileSystem (75)
- Zapis danych (78)
- Katalogi (80)
- Zapytania w systemie plików (80)
- Usuwanie danych (84)
Przepływ danych (85)
- Anatomia odczytu pliku (85)
- Anatomia procesu zapisu danych do pliku (87)
- Model zapewniania spójności (90)
Równoległe kopiowanie za pomocą programu distcp (91)
- Zachowywanie równowagi w klastrach z systemem HDFS (92)

Rozdział 4. System YARN (95)

Struktura działania aplikacji w systemie YARN (96)
- Żądania zasobów (97)
- Czas życia aplikacji (97)
- Budowanie aplikacji systemu YARN (98)
System YARN a implementacja MapReduce 1 (99)
Szeregowanie w systemie YARN (101)
- Dostępne programy szeregujące (101)
- Konfigurowanie programu szeregującego Capacity (103)
- Konfigurowanie programu szeregującego Fair (105)
- Szeregowanie z opóźnieniem (109)
- Podejście Dominant Resource Fairness (109)
Dalsza lektura (110)

Rozdział 5. Operacje wejścia-wyjścia w platformie Hadoop (111)

Integralność danych (111)
- Integralność danych w systemie HDFS (112)
- Klasa LocalFileSystem (112)
- Klasa ChecksumFileSystem (113)
Kompresja (113)
- Kodeki (114)
- Kompresja i podział danych wejściowych (118)
- Wykorzystywanie kompresji w modelu MapReduce (120)
- Serializacja (122)
- Interfejs Writable (123)
- Klasy z rodziny Writable (125)
- Tworzenie niestandardowych implementacji interfejsu Writable (132)
- Platformy do obsługi serializacji (137)
Plikowe struktury danych (138)
- Klasa SequenceFile (138)
- Klasa MapFile (145)
- Inne formaty plików i formaty kolumnowe (146)

CZĘŚĆ II. MODEL MAPREDUCE (149)

Rozdział 6. Budowanie aplikacji w modelu MapReduce (151)

API do obsługi konfiguracji (151)
- Łączenie zasobów (152)
- Podstawianie wartości zmiennych (153)
- Przygotowywanie środowiska programowania (154)
- Zarządzanie konfiguracją (155)
- GenericOptionsParser, Tool i ToolRunner (158)
Pisanie testów jednostkowych za pomocą biblioteki MRUnit (161)
- Mapper (161)
- Reduktor (164)
Uruchamianie kodu lokalnie na danych testowych (164)
- Uruchamianie zadania w lokalnym mechanizmie wykonywania zadań (165)
- Testowanie sterownika (166)
Uruchamianie programów w klastrze (167)
- Tworzenie pakietu z zadaniem (168)
- Uruchamianie zadania (169)
- Sieciowy interfejs użytkownika modelu MapReduce (171)
- Pobieranie wyników (174)
- Debugowanie zadania (175)
- Dzienniki w Hadoopie (178)
- Zdalne diagnozowanie (180)
Dostrajanie zadania (181)
- Profilowanie operacji (181)
Przepływ pracy w modelu MapReduce (182)
- Rozbijanie problemu na zadania w modelu MapReduce (183)
- JobControl (184)
- Apache Oozie (185)

Rozdział 7. Jak działa model MapReduce? (191)

Wykonywanie zadań w modelu MapReduce (191)
- Przesyłanie zadania (192)
- Inicjowanie zadania (193)
- Przypisywanie operacji do węzłów (194)
- Wykonywanie operacji (194)
- Aktualizowanie informacji o postępie i statusu (196)
- Ukończenie zadania (197)
Niepowodzenia (198)
- Niepowodzenie operacji (198)
- Niepowodzenie zarządcy aplikacji (199)
- Niepowodzenie menedżera węzła (200)
- Niepowodzenie menedżera zasobów (201)
Przestawianie i sortowanie (202)
- Etap mapowania (202)
- Etap redukcji (203)
- Dostrajanie konfiguracji (206)
Wykonywanie operacji (208)
- Środowisko wykonywania operacji (208)
- Wykonywanie spekulacyjne (209)
- Klasy z rodziny OutputCommitter (210)

Rozdział 8. Typy i formaty z modelu MapReduce (213)

Typy w modelu MapReduce (213)
- Domyślne zadanie z modelu MapReduce (216)
Formaty wejściowe (222)
- Wejściowe porcje danych i rekordy (222)
- Tekstowe dane wejściowe (232)
- Binarne dane wejściowe (236)
- Różne dane wejściowe (237)
- Dane wejściowe (i wyjściowe) z bazy (238)
Formaty danych wyjściowych (238)
- Tekstowe dane wyjściowe (239)
- Binarne dane wyjściowe (239)
- Wiele danych wyjściowych (240)
- Leniwe generowanie danych wyjściowych (243)
- Dane wyjściowe dla bazy (244)

Rozdział 9. Funkcje modelu MapReduce (245)

Liczniki (245)
- Liczniki wbudowane (245)
- Zdefiniowane przez użytkowników liczniki Javy (249)
- Zdefiniowane przez użytkownika liczniki narzędzia Streaming (252)
Sortowanie (253)
- Przygotowania (253)
- Częściowe sortowanie (254)
- Sortowanie wszystkich danych (255)
- Sortowanie pomocnicze (259)
Złączanie (264)
- Złączanie po stronie mapowania (265)
- Złączanie po stronie redukcji (265)
Rozdzielanie danych pomocniczych (268)
- Wykorzystanie konfiguracji zadania (268)
- Rozproszona pamięć podręczna (269)
Klasy biblioteczne modelu MapReduce (273)

CZĘŚĆ III. PRACA Z PLATFORMĄ HADOOP (275)

Rozdział 10. Budowanie klastra opartego na platformie Hadoop (277)

Specyfikacja klastra (278)
- Określanie wielkości klastra (279)
- Topologia sieci (280)
Przygotowywanie i instalowanie klastra (282)
- Instalowanie Javy (282)
- Tworzenie kont użytkowników w Uniksie (282)
- Instalowanie Hadoopa (282)
- Konfigurowanie ustawień protokołu SSH (282)
- Konfigurowanie Hadoopa (283)
- Formatowanie systemu plików HDFS (283)
- Uruchamianie i zatrzymywanie demonów (284)
- Tworzenie katalogów użytkowników (285)
Konfiguracja Hadoopa (285)
- Zarządzanie konfiguracją (286)
- Ustawienia środowiskowe (287)
- Ważne właściwości demonów Hadoopa (289)
- Adresy i porty demonów Hadoopa (296)
- Inne właściwości Hadoopa (298)
Bezpieczeństwo (299)
- Kerberos i Hadoop (300)
- Tokeny do delegowania uprawnień (302)
- Inne usprawnienia w zabezpieczeniach (303)
Testy porównawcze klastra opartego na Hadoopie (305)
- Testy porównawcze w Hadoopie (305)
- Zadania użytkowników (307)

Rozdział 11. Zarządzanie platformą Hadoop (309)

System HDFS (309)
- Trwałe struktury danych (309)
- Tryb bezpieczny (314)
- Rejestrowanie dziennika inspekcji (315)
- Narzędzia (316)
Monitorowanie (320)
- Rejestrowanie informacji w dziennikach (320)
- Wskaźniki i technologia JMX (321)
Konserwacja (322)
- Standardowe procedury administracyjne (322)
- Dodawanie i usuwanie węzłów (324)
- Aktualizacje (327)

CZĘŚĆ IV. POWIĄZANE PROJEKTY (331)

Rozdział 12. Avro (333)

Typy danych i schematy systemu Avro (334)
Serializacja i deserializacja w pamięci (337)
- Specyficzny interfejs API (338)
Pliki danych systemu Avro (340)
Współdziałanie języków (341)
- Interfejs API dla Pythona (341)
- Narzędzia systemu Avro (342)
Określanie schematu (343)
Porządek sortowania (344)
Avro i model MapReduce (346)
Sortowanie za pomocą modelu MapReduce i systemu Avro (349)
Używanie systemu Avro w innych językach (351)

Rozdział 13. Parquet (353)

Model danych (354)
- Kodowanie struktury zagnieżdżonych danych (355)
Format plików Parquet (356)
Konfiguracja dla formatu Parquet (358)
Zapis i odczyt plików w formacie Parquet (358)
- Avro, Protocol Buffers i Thrift (360)
Format Parquet i model MapReduce (362)

Rozdział 14. Flume (365)

Instalowanie platformy Flume (365)
Przykład (366)
Transakcje i niezawodność (368)
- Porcje zdarzeń (369)
Ujścia w systemie HDFS (369)
- Podział na partycje i interceptory (370)
- Formaty plików (371)
Rozsyłanie danych do wielu kanałów (372)
- Gwarancje dostarczenia (373)
- Selektory replikacji i rozsyłania (374)
Dystrybucja - warstwy agentów (374)
- Gwarancje dostarczenia danych (376)
Grupy ujść (377)
Integrowanie platformy Flume z aplikacjami (380)
Katalog komponentów (381)
Dalsza lektura (382)

Rozdział 15. Sqoop (383)

Pobieranie Sqoopa (383)
Konektory Sqoopa (385)
Przykładowa operacja importu (385)
- Formaty plików tekstowych i binarnych (388)
Wygenerowany kod (388)
- Inne systemy serializacji (389)
Importowanie - dokładne omówienie (389)
Kontrolowanie procesu importu (391)
- Import i spójność (392)
- Przyrostowy import (392)
- Importowanie w trybie bezpośrednim (392)
Praca z zaimportowanymi danymi (393)
- Importowane dane i platforma Hive (394)
Importowanie dużych obiektów (396)
Eksportowanie (398)
Eksportowanie - dokładne omówienie (399)
- Eksport i transakcje (401)
- Eksport i pliki typu SequenceFile (401)
Dalsza lektura (402)

Rozdział 16. Pig (403)

Instalowanie i uruchamianie platformy Pig (404)
- Tryby wykonywania (404)
- Uruchamianie programów platformy Pig (406)
- Grunt (406)
- Edytory kodu w języku Pig Latin (407)
Przykład (407)
- Generowanie przykładowych danych (409)
Porównanie platformy Pig z bazami danych (410)
Język Pig Latin (411)
- Struktura (411)
- Instrukcje (412)
- Wyrażenia (417)
- Typy (418)
- Schematy (419)
- Funkcje (423)
- Makra (425)
Funkcje zdefiniowane przez użytkownika (426)
- Funkcje UDF służące do filtrowania (426)
- Obliczeniowa funkcja UDF (429)
- Funkcje UDF służące do wczytywania danych (430)
Operatory używane do przetwarzania danych (433)
- Wczytywanie i zapisywanie danych (433)
- Filtrowanie danych (434)
- Grupowanie i złączanie danych (436)
- Sortowanie danych (441)
- Łączenie i dzielenie danych (442)
Platforma Pig w praktyce (442)
- Współbieżność (442)
- Relacje anonimowe (443)
- Podstawianie wartości pod parametry (443)
Dalsza lektura (444)

Rozdział 17. Hive (445)

Instalowanie platformy Hive (446)
- Powłoka platformy Hive (446)
Przykład (448)
Uruchamianie platformy Hive (449)
- Konfigurowanie platformy Hive (449)
- Usługi platformy Hive (451)
- Magazyn metadanych (453)
Porównanie z tradycyjnymi bazami danych (456)
- Uwzględnianie schematu przy odczycie lub przy zapisie (456)
- Aktualizacje, transakcje i indeksy (456)
- Inne silniki obsługujące język SQL w Hadoopie (457)
HiveQL (458)
- Typy danych (458)
- Operatory i funkcje (462)
Tabele (463)
- Tabele zarządzane i tabele zewnętrzne (463)
- Partycje i kubełki (464)
- Formaty przechowywania danych (468)
- Importowanie danych (472)
- Modyfikowanie tabel (473)
- Usuwanie tabel (474)
Pobieranie danych (474)
- Sortowanie i agregacja danych (475)
- Skrypty modelu MapReduce (475)
- Złączenia (476)
- Podzapytania (479)
- Widoki (480)
Funkcje zdefiniowane przez użytkowników (481)
- Pisanie funkcji UDF (482)
- Pisanie funkcji UDAF (484)
Dalsza lektura (488)

Rozdział 18. Crunch (489)

Przykład (490)
Podstawowe interfejsy API Cruncha (493)
- Proste operacje (493)
- Typy (497)
- Źródłowe i docelowe zbiory danych (500)
- Funkcje (502)
- Materializacja (504)
Wykonywanie potoku (506)
- Uruchamianie potoku (506)
- Zatrzymywanie potoku (507)
- Inspekcja planu wykonania w Crunchu (508)
- Algorytmy iteracyjne (511)
- Tworzenie punktów kontrolnych w potokach (512)
Biblioteki w Crunchu (513)
Dalsza lektura (515)

Rozdział 19. Spark (517)

Instalowanie Sparka (518)
Przykład (518)
- Aplikacje, zadania, etapy i operacje w Sparku (520)
- Niezależna aplikacja w języku Scala (520)
- Przykład napisany w Javie (521)
- Przykład napisany w Pythonie (522)
Zbiory RDD (523)
- Tworzenie zbiorów RDD (523)
- Transformacje i akcje (524)
- Utrwalanie danych (527)
- Serializacja (529)
Zmienne współużytkowane (530)
- Zmienne rozsyłane (531)
- Akumulatory (531)
Anatomia przebiegu zadania w Sparku (532)
- Przesyłanie zadań (532)
- Tworzenie skierowanego grafu acyklicznego (533)
- Szeregowanie operacji (535)
- Wykonywanie operacji (536)
Wykonawcy i menedżery klastra (536)
- Spark i YARN (537)
Dalsza lektura (540)

Rozdział 20. HBase (541)

Podstawy (541)
- Tło historyczne (542)
Omówienie zagadnień (542)
- Krótki przegląd modelu danych (542)
- Implementacja (544)
Instalacja (546)
- Przebieg testowy (547)
Klienty (549)
- Java (549)
- Model MapReduce (552)
- Interfejsy REST i Thrift (553)
Budowanie interaktywnej aplikacji do przesyłania zapytań (553)
- Projekt schematu (554)
- Wczytywanie danych (555)
- Zapytania interaktywne (558)
Baza HBase a bazy RDBMS (561)
- Historia cieszącej się powodzeniem usługi (562)
- Baza HBase (563)
Bazy HBase w praktyce (563)
- System HDFS (564)
- Interfejs użytkownika (564)
- Wskaźniki (565)
- Liczniki (565)
Dalsza lektura (565)

Rozdział 21. ZooKeeper (567)

Instalowanie i uruchamianie systemu ZooKeeper (568)
Przykład (570)
- Przynależność do grupy w systemie ZooKeeper (570)
- Tworzenie grupy (571)
- Dołączanie członków do grupy (573)
- Wyświetlanie członków grupy (574)
- Usuwanie grupy (575)
Usługa ZooKeeper (576)
- Model danych (576)
- Operacje (578)
- Implementacja (582)
- Spójność (583)
- Sesje (585)
- Stany (587)
Budowanie aplikacji z wykorzystaniem ZooKeepera (588)
- Usługa do zarządzania konfiguracją (588)
- Odporna na błędy aplikacja ZooKeepera (591)
- Usługa do zarządzania blokadami (594)
- Inne rozproszone struktury danych i protokoły (596)
ZooKeeper w środowisku produkcyjnym (597)
- Odporność a wydajność (598)
- Konfiguracja (599)
Dalsza lektura (600)

CZĘŚĆ V. STUDIA PRZYPADKÓW (601)

Rozdział 22. Integrowanie danych w firmie Cerner (603)

Od integracji procesorów do integracji semantycznej (603)
Poznaj platformę Crunch (604)
Budowanie kompletnego obrazu (604)
Integrowanie danych z obszaru opieki zdrowotnej (607)
Możliwość łączenia danych w różnych platformach (610)
Co dalej? (611)

Rozdział 23. Nauka o danych biologicznych - ratowanie życia za pomocą oprogramowania (613)

Struktura DNA (615)
Kod genetyczny - przekształcanie liter DNA w białka (616)
Traktowanie kodu DNA jak kodu źródłowego (617)
Projekt poznania ludzkiego genomu i genomy referencyjne (619)
Sekwencjonowanie i wyrównywanie DNA (620)
ADAM - skalowalna platforma do analizy genomu (621)
- Programowanie piśmienne za pomocą języka IDL systemu Avro (621)
- Dostęp do danych kolumnowych w formacie Parquet (623)
- Prosty przykład - zliczanie k-merów za pomocą Sparka i ADAM-a (624)
Od spersonalizowanych reklam do spersonalizowanej medycyny (626)
Dołącz do projektu (627)

Rozdział 24. Cascading (629)

Pola, krotki i potoki (630)
- Operacje (632)
Typy Tap, Scheme i Flow (634)
Cascading w praktyce (635)
- Elastyczność (637)
Hadoop i Cascading w serwisie ShareThis (638)
Podsumowanie (642)

DODATKI (643)

Dodatek A. Instalowanie platformy Apache Hadoop (645)

Wymagania wstępne (645)
Instalacja (645)
Konfiguracja (646)
- Tryb niezależny (647)
- Tryb pseudorozproszony (647)
- Tryb rozproszony (649)

Dodatek B. Dystrybucja firmy Cloudera (651)

Dodatek C. Przygotowywanie danych meteorologicznych od instytucji NCDC (653)

Dodatek D. Dawny i nowy interfejs API Javy dla modelu MapReduce (657)

Skorowidz (661)

pokaż cały spis treści

Helion - inne książki

Bestseller Nowość Promocja

Sztuczna inteligencja coraz silniej wpływa na nasze życie. Systemy oparte na uczeniu maszynowym decydują o przyznaniu kredytu, wspierają diagnozowanie chorób, odgrywają coraz większą rolę w odkryciach z zakresu biologii, chemii, fizyki czy medycyny. Skokowy rozwój dużych modeli językowych, takich jak ChatGPT, Gemini czy Claude, pozwala używać AI do zadań, które jeszcze niedawno były zarezerwowane wyłącznie dla ludzi.
- ebook
- książka
Dlaczego maszyny się uczą? O pięknie matematyki i działaniu współczesnej sztucznej inteligencji

Anil Ananthaswamy

(34,50 zł najniższa cena z 30 dni)

14.90 zł ~~69.00 zł (-78%)~~
Nowość Promocja

Dane są dziś powszechnie dostępne, ale rzadko w takiej formie, w jakiej ich potrzebujemy. Na szczęście z pomocą przychodzi Power Query. To nowoczesne narzędzie idealne do analityki w Excelu i Power BI, które zamienia żmudne, wielogodzinne czyszczenie danych w automatyczny, błyskawiczny proces.
- ebook
- książka
Power Query w Excelu. Analizuj dane jak profesjonalista

Adam Kopeć

(44,50 zł najniższa cena z 30 dni)

44.50 zł ~~89.00 zł (-50%)~~
Nowość Promocja

Terraform to oprogramowanie typu open source umożliwiające zarządzanie infrastrukturą IT jako kodem (IaC, ang. infrastructure as code). Pozwala deklaratywnie zdefiniować zasoby chmurowe - takie jak AWS, Azure czy Google Cloud a także zasoby lokalne przy użyciu języka HCL, a potem zautomatyzować ich wdrażanie, wersjonowanie i modyfikowanie.
- ebook
- książka
Terraform w praktyce. Buduj i automatyzuj infrastrukturę chmurową oraz zarządzaj nią z wykorzystaniem Dockera

Mariusz Dworniczak

(29,95 zł najniższa cena z 30 dni)

29.95 zł ~~59.90 zł (-50%)~~
Nowość Promocja

Ta przystępna i angażująca książka pomaga zrozumieć nawet złożone zagadnienia związane ze strukturami danych i z algorytmami. Przykłady zaczerpnięte z rzeczywistego świata pokazują, jak struktury danych działają w praktyce od przyspieszania wyszukiwania informacji po obsługę pacjentów w izbie przyjęć. Drzewa, kolejki, kopce i stosy nie będą miały przed Tobą żadnych tajemnic! Wizualne skojarzenia, trafne analogie i czytelne przykłady kodu w Pythonie sprawią, że abstrakcyjne pojęcia staną się intuicyjne i łatwe do zapamiętania. Jak wszystkie książki z serii Ilustrowany przewodnik, również ta pozycja jest lekka w odbiorze, praktyczna i wyjątkowo skuteczna dydaktycznie.
- ebook
- książka
Struktury danych. Ilustrowany przewodnik

Marcello La Rocca

(39,50 zł najniższa cena z 30 dni)

39.50 zł ~~79.00 zł (-50%)~~
Nowość Promocja

Dzięki tej książce w pełni zrozumiesz zasady zarządzania powierzchnią ataku i nauczysz się przejmować kontrolę nad swoimi zasobami, zanim zrobią to atakujący. W książce: zarządzanie powierzchnią ataku w cyberbezpieczeństwie metody oceny i odwzorowywania powierzchni ataku organizacji strategie identyfikacji, klasyfikacji i ustalania priorytetów kluczowych zasobów powiązanie technicznych podatności z ryzykiem biznesowym zasady ciągłego monitorowania eliminacja luk w zabezpieczeniach
- ebook
- książka
Zarządzanie powierzchnią ataku w cyberbezpieczeństwie. Strategie i techniki ochrony zasobów cyfrowych

Ron Eddings, MJ Kaufmann

(49,50 zł najniższa cena z 30 dni)

49.50 zł ~~99.00 zł (-50%)~~
Nowość Promocja

Sztuczna inteligencja przestała być futurystyczną wizją to narzędzie, które już dziś zmienia codzienną pracę specjalistów IT. ChatGPT, Claude i inne modele AI rewolucjonizują sposób, w jaki programiści piszą kod, administratorzy zarządzają systemami, a menedżerowie prowadzą zespoły. Książka stanowi praktyczny przewodnik po zastosowaniu sztucznej inteligencji w realnych scenariuszach od automatyzacji rutynowych zadań po rozwiązywanie złożonych zagadnień technicznych. To pozycja dla każdego, kto chce nie tylko nadążyć za zmianami, ale też uczynić z AI przewagę konkurencyjną w swojej karierze.
- ebook
- książka
AI dla profesjonalistów IT. Narzędzia i techniki zwiększające produktywność

Chrissy LeMaire, Brandon Abshire

(64,50 zł najniższa cena z 30 dni)

14.90 zł ~~129.00 zł (-88%)~~
Nowość Promocja

Systemy oparte na agentach AI rewolucjonizują sposób, w jaki organizacje rozwiązują złożone problemy biznesowe. Generatywna sztuczna inteligencja przyspiesza drogę od koncepcji przez prototyp aż do gotowego rozwiązania, a agenty AI łączące narzędzia, wiedzę, pamięć i uczenie się z zaawansowanymi modelami podstawowymi umożliwiają sekwencyjne wywoływanie modeli do realizacji niejednoznacznych zadań. Od agentów-koderów, przez agentów-badaczy, po agentów-analityków wszędzie widać, że mogą one znacząco przyspieszyć pracę zespołów. Jednak ich wdrożenie pozostaje wyzwaniem wymagającym intensywnego planowania.
- ebook
- książka
Aplikacje oparte na agentach AI. Projektowanie i wdrażanie systemów wieloagentowych

Michael Albada

(49,50 zł najniższa cena z 30 dni)

49.50 zł ~~99.00 zł (-50%)~~
Nowość Promocja

Jeśli chcesz się nauczyć budować układy elektroniczne, które będą odporne na przeciążenia, przegrzewanie i inne awarie, jednym słowem - idealne, ta książka koniecznie musi się znaleźć na Twojej półce! Sięgaj po nią regularnie i twórz niezawodną elektronikę.
- ebook
- książka
Niezawodne układy elektroniczne. Podręcznik konstruktora

Witold Wrotek

(43,50 zł najniższa cena z 30 dni)

43.50 zł ~~87.00 zł (-50%)~~
Nowość Promocja

W książce Cząstka widmo fizyk Alan Chodos i pisarz naukowy James Riordon opowiadają fascynującą historię neutrin ― od momentu, gdy Wolfgang Pauli zaproponował ich istnienie, przez pierwsze eksperymenty wykrywające te ulotne cząstki, aż po współczesne badania, które mogą pomóc wyjaśnić tajemnice Wszechświata.
- ebook
- książka
Cząstka widmo. Nieuchwytne i tajemnicze neutrino

Alan Chodos, James Riordon

(34,50 zł najniższa cena z 30 dni)

34.50 zł ~~69.00 zł (-50%)~~
Nowość Promocja

Książka stanowi kompleksowy przewodnik po projektowaniu wspomaganym sztuczną inteligencją, od podstaw inżynierii promptów po zaawansowane techniki współpracy z modelami AI. Autor szczegółowo omawia narzędzia takie jak GitHub Copilot, Cursor, Windsurf czy Claude, pokazując, jak je skutecznie integrować z codziennym przepływem pracy. Szczególny nacisk kładzie na problem 70% zjawisko, w którym AI doskonale radzi sobie z rutynowymi zadaniami, ale ostatnie 30% wymaga ludzkiej ekspertyzy w zakresie architektury, bezpieczeństwa i optymalizacji.
- ebook
- książka
Vibe coding i przyszłość kodowania. Od programisty do dewelopera ery AI

Addy Osmani

(44,50 zł najniższa cena z 30 dni)

44.50 zł ~~89.00 zł (-50%)~~

Najczęściej zadawane pytania (FAQ)

1. Czy muszę znać język programowania, aby korzystać z książki ,,Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych"?

Podstawowa znajomość języka Java będzie bardzo pomocna, ponieważ wiele przykładów i kodów w książce opiera się na tym języku. Jednak autor wyjaśnia także zagadnienia od podstaw, więc osoby z innym doświadczeniem programistycznym również odnajdą się w treści.

2. Czy książka omawia instalację i konfigurację Hadoop oraz budowę klastra?

Tak, książka szczegółowo opisuje proces instalacji, konfiguracji oraz uruchamiania klastra Hadoop. Znajdziesz tu praktyczne instrukcje krok po kroku, które pomogą Ci przygotować własne środowisko do analizy danych.

3. Jakie narzędzia i technologie powiązane z Hadoopem są omawiane w książce?

W książce znajdziesz rozdziały poświęcone takim narzędziom jak Hive, Pig, Spark, Crunch, HBase, ZooKeeper, Flume, Sqoop, Avro i Parquet. Omawiane są ich zastosowania oraz integracja z Hadoopem.

4. Czy publikacja zawiera praktyczne przykłady i studia przypadków?

Tak, autor prezentuje liczne przykłady kodu, instrukcje krok po kroku oraz studia przypadków z różnych branż, w tym z sektora zdrowia i analizy danych biologicznych.

5. Czy książka nadaje się do samodzielnej nauki Hadoop od podstaw?

Tak, książka została napisana z myślą zarówno o osobach rozpoczynających pracę z Hadoopem, jak i o bardziej zaawansowanych użytkownikach. Wprowadza w podstawy, a następnie przechodzi do zaawansowanych zagadnień.

6. Czy wiedza z książki pozwoli mi wykorzystać Hadoop w projektach zawodowych?

Tak, opanowanie materiału zawartego w książce pozwoli Ci efektywnie wykorzystać Hadoop i powiązane narzędzia w praktycznych projektach związanych z analizą i przechowywaniem dużych zbiorów danych.

7. W jakim formacie dostępna jest książka na Helion.pl?

Książka dostępna jest w wersji papierowej oraz w formatach elektronicznych (ebook: PDF, ePub, mobi), dzięki czemu możesz wybrać najwygodniejszy dla siebie sposób czytania.

8. Czy książka jest aktualna względem najnowszych wersji Hadoop?

Tak, książka omawia nowości w Hadoop 2 oraz aktualne narzędzia i dobre praktyki, co czyni ją wartościowym źródłem wiedzy dla osób chcących pracować z nowoczesnymi rozwiązaniami Big Data.

Zamknij

Hadoop. Komplety przewodnik. Analiza i przechowywanie danych Tom White

Kup w zestawie z dodatkowym rabatem

Opis książki : Hadoop. Komplety przewodnik. Analiza i przechowywanie danych

Analiza danych z Hadoopem — i wszystko staje się prostsze!