Spark. Zaawansowana analiza danych

(ebook) (audiobook) (audiobook)

Autorzy:: Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

Promocja
+49 pkt
+24 pkt

Spark. Zaawansowana analiza danych Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills - okładka ebooka

Spark. Zaawansowana analiza danych Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills - okładka audiobooka MP3

Spark. Zaawansowana analiza danych Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills - okładka audiobooks CD

Zajrzyj do książki

Wydawnictwo:: Helion
Wydawnictwo:: Helion
Ocena:: Bądź pierwszym, który oceni tę książkę
Stron:: 240
Druk:: oprawa miękka
Dostępne formaty:: PDF

ePub

Mobi

+49 pkt

+24 pkt

Czytaj fragment

Książka

49,00 zł

Powiadom mnie, gdy książka będzie dostępna

Ebook (14,90 zł najniższa cena z 30 dni)

~~49,00 zł~~ (-50%)
24,50 zł

Dodaj do koszyka lub Kup na prezent
Kup 1-kliknięciem

( 14,90 zł najniższa cena z 30 dni)

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Analiza ogromnych zbiorów danych nie musi być wolna!

Apache Spark to darmowy, zaawansowany szkielet i silnik pozwalający na szybkie przetwarzanie oraz analizę ogromnych zbiorów danych. Prace nad tym projektem rozpoczęły się w 2009 roku, a już rok później Spark został udostępniony użytkownikom. Jeżeli potrzebujesz najwyższej wydajności w przetwarzaniu informacji, jeżeli chcesz uzyskiwać odpowiedź na trudne pytania niemalże w czasie rzeczywistym, Spark może być odpowiedzią na Twoje oczekiwania.

Sięgnij po tę książkę i przekonaj się, czy tak jest w rzeczywistości. Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark. Nauczysz się też przeprowadzać analizę semantyczną i zobaczysz, jak w praktyce przeprowadzić analizę sieci współwystępowań za pomocą biblioteki GraphX. Na koniec dowiesz się, jak przetwarzać dane geoprzestrzenne i genomiczne, a także oszacujesz ryzyko metodą symulacji Monte Carlo. Książka ta pozwoli Ci na wykorzystanie potencjału Apache Spark i zaprzęgnięcie go do najtrudniejszych zadań!

Przykłady prezetnowane w książce obejmują:

Rekomendowanie muzyki i dane Audioscrobbler
Prognozowanie zalesienia za pomocą drzewa decyzyjnego
Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich
Wikipedia i ukryta analiza semantyczna
Analiza sieci współwystępowań za pomocą biblioteki GraphX
Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
Szacowanie ryzyka finansowego metodą symulacji Monte Carlo
Analiza danych genomicznych i projekt BDG
Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder

Poznaj potencjał i wydajność Apache Spark!

Pokaż opis z okładki oryginału »

Wybrane bestsellery

O autorach ebooka

Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.

Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.

Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.

Josh Wills jest starszym menedżerem działu analiz danych w Cloudera i inicjatorem pakietu Apache Crunch.

Ebooka "Spark. Zaawansowana analiza danych" przeczytasz na:

czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
systemach Windows, MacOS i innych

systemach Windows, Android, iOS, HarmonyOS
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi

Masz pytania? Zajrzyj do zakładki Pomoc »

Audiobooka "Spark. Zaawansowana analiza danych" posłuchasz:

w aplikacji Ebookpoint na Android, iOS, HarmonyOs
na systemach Windows, MacOS i innych

na dowolnych urządzeniach
i aplikacjach obsługujących format MP3
(pliki spakowane w ZIP)

Masz pytania? Zajrzyj do zakładki Pomoc »

Kurs Video "Spark. Zaawansowana analiza danych" zobaczysz:

Oceny i opinie klientów: Spark. Zaawansowana analiza danych Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.

Szczegóły ebooka

Tytuł oryginału:: Advanced Analytics with Spark
Tłumaczenie:: Andrzej Watrak
ISBN Książki drukowanej:: 978-83-283-1461-0, 9788328314610
Data wydania książki drukowanej:: 2015-11-20
ISBN Ebooka:: 978-83-283-1464-1, 9788328314641
Data wydania ebooka:: 2015-11-24 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
Format:: 168x237
Numer z katalogu:: 38000
Rozmiar pliku Pdf:: 3.1MB
Rozmiar pliku ePub:: 4.0MB
Rozmiar pliku Mobi:: 8.6MB
Pobierz przykładowy rozdział PDF
Przykłady na ftp

Zgłoś erratę

Kategorie

Kliknij, aby zgłosić błędnie przypisaną kategorię »

Informatyka » Biznes IT » Big data

Informatyka » Bazy danych » Inne

Informatyka » Biznes IT » Big data » Analiza danych

Spis treści ebooka

Przedmowa (9)

Słowo wstępne (11)

1. Analiza wielkich zbiorów danych (13)

Wyzwania w nauce o danych (15)
Przedstawiamy Apache Spark (16)
O czym jest ta książka (18)

2. Wprowadzenie do analizy danych za pomocą Scala i Spark (21)

Scala dla badaczy danych (22)
Model programowania w Spark (23)
Wiązanie rekordów danych (23)
Pierwsze kroki - powłoka Spark i kontekst SparkContext (24)
Przesyłanie danych z klastra do klienta (29)
Wysyłanie kodu z klienta do klastra (32)
Tworzenie list danych i klas wyboru (33)
Agregowanie danych (36)
Tworzenie histogramów (38)
Statystyki sumaryzacyjne ciągłych wartości (39)
Tworzenie współdzielonego kodu wyliczającego statystyki sumaryczne (40)
Prosty wybór zmiennych i ocena zgodności rekordów (44)
Następny krok (45)

3. Rekomendowanie muzyki i dane Audioscrobbler (47)

Zbiór danych (48)
Algorytm rekomendacyjny wykorzystujący metodę naprzemiennych najmniejszych kwadratów (49)
Przygotowanie danych (51)
Utworzenie pierwszego modelu (54)
Wyrywkowe sprawdzanie rekomendacji (56)
Ocena jakości rekomendacji (57)
Obliczenie metryki AUC (59)
Dobór wartości hiperparametrów (60)
Przygotowanie rekomendacji (62)
Dalsze kroki (63)

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego (65)

Szybkie przejście do regresji (65)
Wektory i cechy (66)
Przykłady treningowe (67)
Drzewa i lasy decyzyjne (68)
Dane Covtype (70)
Przygotowanie danych (71)
Pierwsze drzewo decyzyjne (72)
Hiperparametry drzewa decyzyjnego (76)
Regulacja drzewa decyzyjnego (77)
Weryfikacja cech kategorialnych (79)
Losowy las decyzyjny (81)
Prognozowanie (83)
Dalsze kroki (83)

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich (85)

Wykrywanie anomalii (86)
Grupowanie według k-średnich (86)
Włamania sieciowe (87)
Dane KDD Cup 1999 (87)
Pierwsza próba grupowania (88)
Dobór wartości k (90)
Wizualizacja w środowisku R (93)
Normalizacja cech (94)
Zmienne kategorialne (96)
Wykorzystanie etykiet i wskaźnika entropii (97)
Grupowanie w akcji (98)
Dalsze kroki (100)

6. Wikipedia i ukryta analiza semantyczna (101)

Macierz słowo - dokument (102)
Pobranie danych (104)
Analiza składni i przygotowanie danych (104)
Lematyzacja (105)
Wyliczenie metryk TF-IDF (106)
Rozkład według wartości osobliwych (108)
Wyszukiwanie ważnych pojęć (110)
Wyszukiwanie i ocenianie informacji za pomocą niskowymiarowej reprezentacji danych (113)
Związek dwóch słów (114)
Związek dwóch dokumentów (115)
Związek słowa i dokumentu (116)
Wyszukiwanie wielu słów (117)
Dalsze kroki (118)

7. Analiza sieci współwystępowań za pomocą biblioteki GraphX (121)

Katalog cytowań bazy MEDLINE - analiza sieci (122)
Pobranie danych (123)
Analiza dokumentów XML za pomocą biblioteki Scala (125)
Analiza głównych znaczników i ich współwystępowań (126)
Konstruowanie sieci współwystępowań za pomocą biblioteki GraphX (128)
Struktura sieci (131)
- Połączone komponenty (131)
- Rozkład stopni wierzchołków (133)
Filtrowanie krawędzi zakłócających dane (135)
- Przetwarzanie struktury EdgeTriplet (136)
- Analiza przefiltrowanego grafu (138)
Sieci typu "mały świat" (139)
- Kliki i współczynniki klastrowania (139)
- Obliczenie średniej długości ścieżki za pomocą systemu Pregel (141)
Dalsze kroki (145)

8. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek (147)

Pobranie danych (148)
Przetwarzanie danych temporalnych i geoprzestrzennych w systemie Spark (148)
Przetwarzanie danych temporalnych za pomocą bibliotek JodaTime i NScalaTime (149)
Przetwarzanie danych geoprzestrzennych za pomocą Esri Geometry API i Spray (150)
- Użycie interfejsu API Esri Geometry (151)
- Wprowadzenie do formatu GeoJSON (152)
Przygotowanie danych dotyczących kursów taksówek (154)
- Obsługa dużej liczby błędnych rekordów danych (155)
- Analiza danych geoprzestrzennych (158)
Sesjonowanie w systemie Spark (161)
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark (162)
Dalsze kroki (165)

9. Szacowanie ryzyka finansowego metodą symulacji Monte Carlo (167)

Terminologia (168)
Metody obliczania wskaźnika VaR (169)
- Wariancja-kowariancja (169)
- Symulacja historyczna (169)
- Symulacja Monte Carlo (169)
Nasz model (170)
Pobranie danych (171)
Wstępne przetworzenie danych (171)
Określenie wag czynników (174)
Losowanie prób (176)
- Wielowymiarowy rozkład normalny (178)
Wykonanie testów (179)
Wizualizacja rozkładu zwrotów (181)
Ocena wyników (182)
Dalsze kroki (184)

10. Analiza danych genomicznych i projekt BDG (187)

Rozdzielenie sposobów zapisu i modelowania danych (188)
Przetwarzanie danych genomicznych za pomocą wiersza poleceń systemu ADAM (190)
- Format Parquet i format kolumnowy (195)
Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE (197)
Odczytywanie informacji o genotypach z danych 1000 Genomes (203)
Dalsze kroki (204)

11. Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder (205)

Ogólne informacje o pakiecie PySpark (206)
- Budowa pakietu PySpark (207)
Ogólne informacje i instalacja biblioteki pakietu Thunder (209)
Ładowanie danych za pomocą pakietu Thunder (210)
- Podstawowe typy danych w pakiecie Thunder (214)
Klasyfikowanie neuronów za pomocą pakietu Thunder (216)
Dalsze kroki (221)

A. Więcej o systemie Spark (223)

Serializacja (224)
Akumulatory (225)
System Spark i metody pracy badacza danych (226)
Formaty plików (228)
Podprojekty Spark (229)
- MLlib (229)
- Spark Streaming (230)
- Spark SQL (230)
- GraphX (230)

B. Nowy interfejs MLlib Pipelines API (231)

Samo modelowanie to za mało (231)
Interfejs API Pipelines (232)
Przykład procesu klasyfikacji tekstu (233)

Skorowidz (237)

pokaż cały spis treści

Spark. Zaawansowana analiza danych

Książka

Ebook (14,90 zł najniższa cena z 30 dni)

Najczęściej kupowane razem

Opis ebooka: Spark. Zaawansowana analiza danych

Analiza ogromnych zbiorów danych nie musi być wolna!

Poznaj potencjał i wydajność Apache Spark!

Metody przetwarzania informacji na szeroką skalę

Wybrane bestsellery

O autorach ebooka

Ebooka "Spark. Zaawansowana analiza danych" przeczytasz na:

Audiobooka "Spark. Zaawansowana analiza danych" posłuchasz:

Kurs Video "Spark. Zaawansowana analiza danych" zobaczysz:

Szczegóły ebooka

Kategorie

Spis treści ebooka

Helion - inne książki

Poinformuj mnie

Twoje uwagi do kursu

Poinformuj mnie

Wybierz metodę płatności

Przenieś na półkę

Dodano produkt na półkę

Usunięto produkt z półki

Przeniesiono produkt do archiwum

Przeniesiono produkt do biblioteki