Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition
![Język publikacji: angielski Język publikacji: angielski](https://static01.helion.com.pl/global/flagi/1.png)
- Autorzy:
- Sandy Ryza, Uri Laserson, Sean Owen
![Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition Sandy Ryza, Uri Laserson, Sean Owen - okładka ebooka](https://static01.helion.com.pl/global/okladki/326x466/e_0kxs.png)
![Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition Sandy Ryza, Uri Laserson, Sean Owen - tył okładki ebooka](https://static01.helion.com.pl/global/okladki-tyl/326x466/e_0kxs.png)
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 280
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition
In the second edition of this practical book, four Cloudera data scientists present a set of self-contained patterns for performing large-scale data analysis with Spark. The authors bring Spark, statistical methods, and real-world data sets together to teach you how to approach analytics problems by example. Updated for Spark 2.1, this edition acts as an introduction to these techniques and other best practices in Spark programming.
You’ll start with an introduction to Spark and its ecosystem, and then dive into patterns that apply common techniques—including classification, clustering, collaborative filtering, and anomaly detection—to fields such as genomics, security, and finance.
If you have an entry-level understanding of machine learning and statistics, and you program in Java, Python, or Scala, you’ll find the book’s patterns useful for working on your own data applications.
With this book, you will:
- Familiarize yourself with the Spark programming model
- Become comfortable within the Spark ecosystem
- Learn general approaches in data science
- Examine complete implementations that analyze large public data sets
- Discover which machine learning tools make sense for particular problems
- Acquire code that can be adapted to many uses
Wybrane bestsellery
-
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemow...
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
(41.40 zł najniższa cena z 30 dni)41.40 zł
69.00 zł(-40%) -
Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark.(24.50 zł najniższa cena z 30 dni)
24.50 zł
49.00 zł(-50%) -
The amount of data being generated today is staggering and growing. Apache Spark has emerged as the de facto tool to analyze big data and is now a critical part of the data science toolbox. Updated for Spark 3.0, this practical guide brings together Spark, statistical methods, and real-world data...(184.63 zł najniższa cena z 30 dni)
184.63 zł
219.00 zł(-16%) -
Jeśli myślisz o karierze analityka danych albo starasz się o pracę na stanowisku, na którym będziesz analizować dane, ten kurs jest specjalnie dla Ciebie. Opanujesz dzięki niemu między innymi niezbędne podstawy języka SQL i dowiesz się, jak funkcjonuje i do czego może Ci posłużyć system zarządzan...
SQL dla analityków danych. Kurs video. Kompleksowe przygotowanie do pracy SQL dla analityków danych. Kurs video. Kompleksowe przygotowanie do pracy
(124.50 zł najniższa cena z 30 dni)124.50 zł
249.00 zł(-50%) -
Szybka i efektywna analiza danych – temu właśnie służą tabele i wykresy przestawne dostępne w arkuszu kalkulacyjnym Excel. Nieistotne dla osób, które z Excela korzystają doraźnie – po to, by ułatwić sobie zapisywanie pewnych informacji i prezentowanie ich w bardziej profesjonalny spos...
Tabele i wykresy przestawne dla każdego. Kurs video. Analiza danych w Excelu Tabele i wykresy przestawne dla każdego. Kurs video. Analiza danych w Excelu
(79.59 zł najniższa cena z 30 dni)99.49 zł
199.00 zł(-50%) -
Jeśli w swojej pracy masz lub miewasz do czynienia z danymi, z pewnością orientujesz się, że do tego celu stworzono dotąd całkiem sporo narzędzi. Nic dziwnego – przy tej liczbie danych, z jaką spotykamy się w dzisiejszym cyfrowym świecie, zdolność do ich sprawnego analizowania i wyciągania ...
Grafana. Kurs video. Monitorowanie, analiza i wizualizacja danych w czasie rzeczywistym Grafana. Kurs video. Monitorowanie, analiza i wizualizacja danych w czasie rzeczywistym
(62.55 zł najniższa cena z 30 dni)39.90 zł
139.00 zł(-71%) -
Tę książkę docenią wszyscy zainteresowani eksploracją danych i uczeniem maszynowym, którzy chcieliby pewnie poruszać się w świecie nauki o danych. Pokazano tu, w jaki sposób Excel pozwala zobrazować proces ich eksplorowania i jak działają poszczególne techniki w tym zakresie. Przejrzyście wyjaśni...
Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku
(40.20 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
Power Apps to platforma stworzona przez Microsoft, umożliwiająca łatwe projektowanie, tworzenie i dostosowywanie aplikacji bez konieczności posiadania głębokiej wiedzy programistycznej. Z użyciem Power Apps można budować niestandardowe aplikacje, które efektywnie wspierają i automatyzują różne pr...
Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code
(89.54 zł najniższa cena z 30 dni)109.45 zł
199.00 zł(-45%) -
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zesp...
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(40.20 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(41.40 zł najniższa cena z 30 dni)41.40 zł
69.00 zł(-40%)
O autorach ebooka
Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.
Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.
Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.
Ebooka "Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-14-919-7290-8, 9781491972908
- Data wydania ebooka:
-
2017-06-12
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 4.7MB
- Rozmiar pliku Mobi:
- 4.7MB
Spis treści ebooka
- Foreword
- Preface
- Whats in This Book
- The Second Edition
- Using Code Examples
- OReilly Safari
- How to Contact Us
- Acknowledgments
- 1. Analyzing Big Data
- The Challenges of Data Science
- Introducing Apache Spark
- About This Book
- The Second Edition
- 2. Introduction to Data Analysis with Scala and Spark
- Scala for Data Scientists
- The Spark Programming Model
- Record Linkage
- Getting Started: The Spark Shell and SparkContext
- Bringing Data from the Cluster to the Client
- Shipping Code from the Client to the Cluster
- From RDDs to Data Frames
- Analyzing Data with the DataFrame API
- Fast Summary Statistics for DataFrames
- Pivoting and Reshaping DataFrames
- Joining DataFrames and Selecting Features
- Preparing Models for Production Environments
- Model Evaluation
- Where to Go from Here
- 3. Recommending Music and the Audioscrobbler Data Set
- Data Set
- The Alternating Least Squares Recommender Algorithm
- Preparing the Data
- Building a First Model
- Spot Checking Recommendations
- Evaluating Recommendation Quality
- Computing AUC
- Hyperparameter Selection
- Making Recommendations
- Where to Go from Here
- 4. Predicting Forest Cover with Decision Trees
- Fast Forward to Regression
- Vectors and Features
- Training Examples
- Decision Trees and Forests
- Covtype Data Set
- Preparing the Data
- A First Decision Tree
- Decision Tree Hyperparameters
- Tuning Decision Trees
- Categorical Features Revisited
- Random Decision Forests
- Making Predictions
- Where to Go from Here
- 5. Anomaly Detection in Network Traffic with K-means Clustering
- Anomaly Detection
- K-means Clustering
- Network Intrusion
- KDD Cup 1999 Data Set
- A First Take on Clustering
- Choosing k
- Visualization with SparkR
- Feature Normalization
- Categorical Variables
- Using Labels with Entropy
- Clustering in Action
- Where to Go from Here
- 6. Understanding Wikipedia with Latent Semantic Analysis
- The Document-Term Matrix
- Getting the Data
- Parsing and Preparing the Data
- Lemmatization
- Computing the TF-IDFs
- Singular Value Decomposition
- Finding Important Concepts
- Querying and Scoring with a Low-Dimensional Representation
- Term-Term Relevance
- Document-Document Relevance
- Document-Term Relevance
- Multiple-Term Queries
- Where to Go from Here
- 7. Analyzing Co-Occurrence Networks with GraphX
- The MEDLINE Citation Index: A Network Analysis
- Getting the Data
- Parsing XML Documents with Scalas XML Library
- Analyzing the MeSH Major Topics and Their Co-Occurrences
- Constructing a Co-Occurrence Network with GraphX
- Understanding the Structure of Networks
- Connected Components
- Degree Distribution
- Filtering Out Noisy Edges
- Processing EdgeTriplets
- Analyzing the Filtered Graph
- Small-World Networks
- Cliques and Clustering Coefficients
- Computing Average Path Length with Pregel
- Where to Go from Here
- 8. Geospatial and Temporal Data Analysis on New York City Taxi Trip Data
- Getting the Data
- Working with Third-Party Libraries in Spark
- Geospatial Data with the Esri Geometry API and Spray
- Exploring the Esri Geometry API
- Intro to GeoJSON
- Preparing the New York City Taxi Trip Data
- Handling Invalid Records at Scale
- Geospatial Analysis
- Sessionization in Spark
- Building Sessions: Secondary Sorts in Spark
- Where to Go from Here
- 9. Estimating Financial Risk Through Monte Carlo Simulation
- Terminology
- Methods for Calculating VaR
- Variance-Covariance
- Historical Simulation
- Monte Carlo Simulation
- Our Model
- Getting the Data
- Preprocessing
- Determining the Factor Weights
- Sampling
- The Multivariate Normal Distribution
- Running the Trials
- Visualizing the Distribution of Returns
- Evaluating Our Results
- Where to Go from Here
- 10. Analyzing Genomics Data and the BDG Project
- Decoupling Storage from Modeling
- Ingesting Genomics Data with the ADAM CLI
- Parquet Format and Columnar Storage
- Predicting Transcription Factor Binding Sites from ENCODE Data
- Querying Genotypes from the 1000 Genomes Project
- Where to Go from Here
- 11. Analyzing Neuroimaging Data with PySpark and Thunder
- Overview of PySpark
- PySpark Internals
- Overview of PySpark
- Overview and Installation of the Thunder Library
- Loading Data with Thunder
- Thunder Core Data Types
- Categorizing Neuron Types with Thunder
- Where to Go from Here
- Index
O'Reilly Media - inne książki
-
Developers with the ability to operate, troubleshoot, and monitor applications in Kubernetes are in high demand today. To meet this need, the Cloud Native Computing Foundation created a certification exam to establish a developer's credibility and value in the job market for work in a Kubernetes ...
Certified Kubernetes Application Developer (CKAD) Study Guide. 2nd Edition Certified Kubernetes Application Developer (CKAD) Study Guide. 2nd Edition
(184.75 zł najniższa cena z 30 dni)185.15 zł
219.00 zł(-15%) -
The surging predictive analytics market is expected to grow from $10.5 billion today to $28 billion by 2026. With the rise in automation across industries, the increase in data-driven decision-making, and the proliferation of IoT devices, predictive analytics has become an operational necessity i...(194.65 zł najniższa cena z 30 dni)
209.67 zł
249.00 zł(-16%) -
How do some organizations maintain 24-7 internet-scale operations? How can organizations integrate security while continuously deploying new features? How do organizations increase security within their DevOps processes?This practical guide helps you answer those questions and more. Author Steve ...(169.14 zł najniższa cena z 30 dni)
176.95 zł
209.00 zł(-15%) -
Many organizations today analyze and share large, sensitive datasets about individuals. Whether these datasets cover healthcare details, financial records, or exam scores, it's become more difficult for organizations to protect an individual's information through deidentification, anonymization, ...(237.15 zł najniższa cena z 30 dni)
253.40 zł
289.00 zł(-12%) -
Large language models (LLMs) and diffusion models such as ChatGPT and Stable Diffusion have unprecedented potential. Because they have been trained on all the public text and images on the internet, they can make useful contributions to a wide variety of tasks. And with the barrier to entry great...(245.65 zł najniższa cena z 30 dni)
252.85 zł
289.00 zł(-13%) -
Filled with tips, tricks, and techniques, this easy-to-use book is the perfect resource for intermediate to advanced users of Excel. You'll find complete recipes for more than a dozen topics covering formulas, PivotTables, charts, Power Query, and more. Each recipe poses a particular problem and ...(203.15 zł najniższa cena z 30 dni)
210.55 zł
249.00 zł(-15%) -
Traditional data architecture patterns are severely limited. To use these patterns, you have to ETL data into each tool—a cost-prohibitive process for making warehouse features available to all of your data. The lack of flexibility with these patterns requires you to lock into a set of prio...(211.65 zł najniższa cena z 30 dni)
219.03 zł
259.00 zł(-15%) -
In today's data-driven world, understanding statistical models is crucial for effective analysis and decision making. Whether you're a beginner or an experienced user, this book equips you with the foundational knowledge to grasp and implement statistical models within Tableau. Gain the confidenc...(184.80 zł najniższa cena z 30 dni)
184.80 zł
219.00 zł(-16%) -
If you haven't modernized your data cleaning and reporting processes in Microsoft Excel, you're missing out on big productivity gains. And if you're looking to conduct rigorous data analysis, more can be done in Excel than you think. This practical book serves as an introduction to the modern Exc...(185.09 zł najniższa cena z 30 dni)
184.79 zł
219.00 zł(-16%) -
TypeScript is a typed superset of JavaScript with the potential to solve many of the headaches for which JavaScript is famous. But TypeScript has a learning curve of its own, and understanding how to use it effectively takes time and practice. Using the format popularized by Effective C++ and Eff...(184.50 zł najniższa cena z 30 dni)
184.05 zł
219.00 zł(-16%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
![Loader](https://static01.helion.com.pl/ebookpoint/img/ajax-loader.gif)
![ajax-loader](https://static01.helion.com.pl/ebookpoint/img/ajax-loader.gif)
Oceny i opinie klientów: Advanced Analytics with Spark. Patterns for Learning from Data at Scale. 2nd Edition Sandy Ryza, Uri Laserson, Sean Owen (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.