Scaling Machine Learning with Spark
![Język publikacji: angielski Język publikacji: angielski](https://static01.helion.com.pl/global/flagi/1.png)
![Scaling Machine Learning with Spark Adi Polak - okładka ebooka](https://static01.helion.com.pl/global/okladki/326x466/e_34yi.png)
![Scaling Machine Learning with Spark Adi Polak - tył okładki ebooka](https://static01.helion.com.pl/global/okladki-tyl/326x466/e_34yi.png)
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 294
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Scaling Machine Learning with Spark
Learn how to build end-to-end scalable machine learning solutions with Apache Spark. With this practical guide, author Adi Polak introduces data and ML practitioners to creative solutions that supersede today's traditional methods. You'll learn a more holistic approach that takes you beyond specific requirements and organizational goals--allowing data and ML practitioners to collaborate and understand each other better.
Scaling Machine Learning with Spark examines several technologies for building end-to-end distributed ML workflows based on the Apache Spark ecosystem with Spark MLlib, MLflow, TensorFlow, and PyTorch. If you're a data scientist who works with machine learning, this book shows you when and why to use each technology.
You will:
- Explore machine learning, including distributed computing concepts and terminology
- Manage the ML lifecycle with MLflow
- Ingest data and perform basic preprocessing with Spark
- Explore feature engineering, and use Spark to extract features
- Train a model with MLlib and build a pipeline to reproduce it
- Build a data system to combine the power of Spark with deep learning
- Get a step-by-step example of working with distributed TensorFlow
- Use PyTorch to scale machine learning and its internal architecture
Wybrane bestsellery
-
Machine learning engineering is an in-demand skill set, and it can be difficult to find a helpful guide on the topic. This fully updated second edition will help you solve business problems by addressing the pain points in creating standardized pipelines for taking proof-of-concept ML models to p...
Machine Learning Engineering with Python. Manage the lifecycle of machine learning models using MLOps with practical examples - Second Edition Machine Learning Engineering with Python. Manage the lifecycle of machine learning models using MLOps with practical examples - Second Edition
-
To czwarte, zaktualizowane wydanie znakomitego przewodnika poświęconego zastosowaniu uczenia maszynowego do rozwiązywania rzeczywistych problemów w analizie danych. Dzięki książce dowiesz się wszystkiego, co trzeba wiedzieć o wstępnym przetwarzaniu danych, znajdowaniu kluczowych spostrzeżeń, prog...
Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data. Wydanie IV Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data. Wydanie IV
(83.40 zł najniższa cena z 30 dni)97.30 zł
139.00 zł(-30%) -
Dzięki tej książce łatwo przyswoisz teoretyczne podstawy i zaczniesz je płynnie wdrażać w rzeczywistych scenariuszach. Dowiesz się, w jaki sposób myślenie przyczynowe ułatwia rozwiązywanie problemów, i poznasz pojęcia Pearla, takie jak strukturalny model przyczynowy, interwencje, kontrfakty itp. ...
Wnioskowanie i związki przyczynowe w Pythonie. Nowoczesne uczenie maszynowe z wykorzystaniem bibliotek DoWhy, EconML, PyTorch i nie tylko Wnioskowanie i związki przyczynowe w Pythonie. Nowoczesne uczenie maszynowe z wykorzystaniem bibliotek DoWhy, EconML, PyTorch i nie tylko
(65.40 zł najniższa cena z 30 dni)76.30 zł
109.00 zł(-30%) -
Oto zaktualizowane wydanie popularnego przewodnika, dzięki któremu skorzystasz z ponad dwustu sprawdzonych receptur bazujących na najnowszych wydaniach bibliotek Pythona. Wystarczy, że skopiujesz i dostosujesz kod do swoich potrzeb. Możesz też go uruchamiać i testować za pomocą przykładowego zbio...
Uczenie maszynowe w Pythonie. Receptury. Od przygotowania danych do deep learningu. Wydanie II Uczenie maszynowe w Pythonie. Receptury. Od przygotowania danych do deep learningu. Wydanie II
(53.40 zł najniższa cena z 30 dni)62.30 zł
89.00 zł(-30%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(41.40 zł najniższa cena z 30 dni)48.30 zł
69.00 zł(-30%) -
Głębokie sieci neuronowe mają niesamowity potencjał. Osiągnięcia ostatnich lat nadały procesom uczenia głębokiego zupełnie nową jakość. Obecnie nawet programiści niezaznajomieni z tą technologią mogą korzystać z prostych i niezwykle skutecznych narzędzi, pozwalających na sprawne implementowanie p...
Uczenie maszynowe z użyciem Scikit-Learn, Keras i TensorFlow. Wydanie III Uczenie maszynowe z użyciem Scikit-Learn, Keras i TensorFlow. Wydanie III
(107.40 zł najniższa cena z 30 dni)125.30 zł
179.00 zł(-30%) -
Książka stanowi kompendium wiedzy na temat tej niesłychanie szybko rozwijającej się i dynamicznie wkraczającej w nasze życie dziedziny. Została napisana tak, aby była przystępna dla osób posiadających podstawowe umiejętności matematyczne. Może stanowić podręcznik dla studentów takich kierunków ja...(29.40 zł najniższa cena z 30 dni)
34.30 zł
49.00 zł(-30%) -
To książka przeznaczona dla inżynierów, którzy chcą stosować systemy uczenia maszynowego do rozwiązywania rzeczywistych problemów biznesowych. Zaprezentowano w niej systemy ML używane w szybko rozwijających się startupach, a także przedstawiono holistyczne podejście do ich projektowania ― z...
Jak projektować systemy uczenia maszynowego. Iteracyjne tworzenie aplikacji gotowych do pracy Jak projektować systemy uczenia maszynowego. Iteracyjne tworzenie aplikacji gotowych do pracy
(53.40 zł najniższa cena z 30 dni)62.30 zł
89.00 zł(-30%) -
Oto pierwszy tom dzieła, które stanowi inspirujące spojrzenie na sztuczną inteligencję. Jego zrozumienie nie wymaga wybitnej znajomości informatyki i matematyki. Książka jest wspaniałą syntezą wczesnych i późniejszych koncepcji, a także technik, przeprowadzoną we frameworku idei, metod i technolo...
Sztuczna inteligencja. Nowe spojrzenie. Wydanie IV. Tom 1 Sztuczna inteligencja. Nowe spojrzenie. Wydanie IV. Tom 1
(101.40 zł najniższa cena z 30 dni)118.30 zł
169.00 zł(-30%) -
To praktyczny przewodnik po algorytmach sztucznej inteligencji. Skorzystają z niego programiści i inżynierowie, którzy chcą zrozumieć zagadnienia i algorytmy związane ze sztuczną inteligencją na podstawie praktycznych przykładów i wizualnych wyjaśnień. Książka pokazuje, jak radzić sobie z takimi ...
Algorytmy sztucznej inteligencji. Ilustrowany przewodnik Algorytmy sztucznej inteligencji. Ilustrowany przewodnik
(47.40 zł najniższa cena z 30 dni)55.30 zł
79.00 zł(-30%)
O autorze ebooka
Adi Polak jest doświadczoną inżynierką, wiceprezeską do spraw programistów w firmie Treeverse, członkinią wielu grup eksperckich. Bierze udział w organizowaniu takich konferencji jak Data + AI Summit by Databricks, Current by Confluent i Scale by the Bay. Doświadczenie w uczeniu maszynowym zdobywała, prowadząc badania dla wielu firm z listy Fortune 500.
Ebooka "Scaling Machine Learning with Spark" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Scaling Machine Learning with Spark" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Scaling Machine Learning with Spark" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-10-981-0677-5, 9781098106775
- Data wydania ebooka:
-
2023-03-07
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 6.9MB
- Rozmiar pliku Mobi:
- 16.4MB
Spis treści ebooka
- Preface
- Who Should Read This Book?
- Do You Need Distributed Machine Learning?
- Navigating This Book
- What Is Not Covered
- The Environment and Tools
- The Tools
- The Datasets
- Conventions Used in This Book
- Using Code Examples
- OReilly Online Learning
- How to Contact Us
- Acknowledgments
- 1. Distributed Machine Learning Terminology and Concepts
- The Stages of the Machine Learning Workflow
- Tools and Technologies in the Machine Learning Pipeline
- Distributed Computing Models
- General-Purpose Models
- MapReduce
- MPI
- Barrier
- Shared memory
- General-Purpose Models
- Dedicated Distributed Computing Models
- Introduction to Distributed Systems Architecture
- Centralized Versus Decentralized Systems
- Interaction Models
- Client/server
- Peer-to-peer
- Geo-distributed
- Communication in a Distributed Setting
- Asynchronous
- Synchronous
- Introduction to Ensemble Methods
- High Versus Low Bias
- Types of Ensemble Methods
- Distributed Training Topologies
- Centralized ensemble learning
- Decentralized decision trees
- Centralized, distributed training with parameter servers
- Centralized, distributed training in a P2P topology
- The Challenges of Distributed Machine Learning Systems
- Performance
- Data parallelism versus model parallelism
- Combining data parallelism and model parallelism
- Deep learning
- Performance
- Resource Management
- Fault Tolerance
- Privacy
- Portability
- Setting Up Your Local Environment
- Chapters 26 Tutorials Environment
- Chapters 710 Tutorials Environment
- Summary
- 2. Introduction to Spark and PySpark
- Apache Spark Architecture
- Intro to PySpark
- Apache Spark Basics
- Software Architecture
- Creating a custom schema
- Key Spark data abstractions and APIs
- DataFrames are immutable
- Software Architecture
- PySpark and Functional Programming
- Executing PySpark Code
- pandas DataFrames Versus Spark DataFrames
- Scikit-Learn Versus MLlib
- Summary
- 3. Managing the Machine Learning Experiment Lifecycle with MLflow
- Machine Learning Lifecycle Management Requirements
- What Is MLflow?
- Software Components of the MLflow Platform
- Users of the MLflow Platform
- MLflow Components
- MLflow Tracking
- Using MLflow Tracking to record runs
- Logging your dataset path and version
- MLflow Tracking
- MLflow Projects
- MLflow Models
- MLflow Model Registry
- Registering models
- Transitioning between model stages
- Using MLflow at Scale
- Summary
- 4. Data Ingestion, Preprocessing, and Descriptive Statistics
- Data Ingestion with Spark
- Working with Images
- Image format
- Binary format
- Working with Images
- Working with Tabular Data
- Data Ingestion with Spark
- Preprocessing Data
- Preprocessing Versus Processing
- Why Preprocess the Data?
- Data Structures
- MLlib Data Types
- Preprocessing with MLlib Transformers
- Working with text data
- From nominal categorical features to indices
- Structuring continuous numerical data
- Additional transformers
- Preprocessing Image Data
- Extracting labels
- Transforming labels to indices
- Extracting image size
- Save the Data and Avoid the Small Files Problem
- Avoiding small files
- Image compression and Parquet
- Descriptive Statistics: Getting a Feel for the Data
- Calculating Statistics
- Descriptive Statistics with Spark Summarizer
- Data Skewness
- Correlation
- Pearson correlation
- Spearman correlation
- Summary
- 5. Feature Engineering
- Features and Their Impact on Models
- MLlib Featurization Tools
- Extractors
- Selectors
- Example: Word2Vec
- The Image Featurization Process
- Understanding Image Manipulation
- Grayscale
- Defining image boundaries using image gradients
- Understanding Image Manipulation
- Extracting Features with Spark APIs
- pyspark.sql.functions: pandas_udf and Python type hints
- pyspark.sql.GroupedData: applyInPandas and mapInPandas
- The Text Featurization Process
- Bag-of-Words
- TF-IDF
- N-Gram
- Additional Techniques
- Enriching the Dataset
- Summary
- 6. Training Models with Spark MLlib
- Algorithms
- Supervised Machine Learning
- Classification
- MLlib classification algorithms
- Implementing multilabel classification support
- What about imbalanced class labels?
- Classification
- Regression
- Recommendation systems
- ALS for collaborative filtering
- Unsupervised Machine Learning
- Frequent Pattern Mining
- Clustering
- Evaluating
- Supervised Evaluators
- Unsupervised Evaluators
- Hyperparameters and Tuning Experiments
- Building a Parameter Grid
- Splitting the Data into Training and Test Sets
- Cross-Validation: A Better Way to Test Your Models
- Machine Learning Pipelines
- Constructing a Pipeline
- How Does Splitting Work with the Pipeline API?
- Persistence
- Summary
- 7. Bridging Spark and Deep Learning Frameworks
- The Two Clusters Approach
- Implementing a Dedicated Data Access Layer
- Features of a DAL
- Selecting a DAL
- What Is Petastorm?
- SparkDatasetConverter
- Petastorm as a Parquet Store
- Project Hydrogen
- Barrier Execution Mode
- Accelerator-Aware Scheduling
- A Brief Introduction to the Horovod Estimator API
- Summary
- 8. TensorFlow Distributed Machine Learning Approach
- A Quick Overview of TensorFlow
- What Is a Neural Network?
- TensorFlow Cluster Process Roles and Responsibilities
- A Quick Overview of TensorFlow
- Loading Parquet Data into a TensorFlow Dataset
- An Inside Look at TensorFlows Distributed Machine Learning Strategies
- ParameterServerStrategy
- CentralStorageStrategy: One Machine, Multiple Processors
- MirroredStrategy: One Machine, Multiple Processors, Local Copy
- MultiWorkerMirroredStrategy: Multiple Machines, Synchronous
- TPUStrategy
- What Things Change When You Switch Strategies?
- Training APIs
- Keras API
- MobileNetV2 transfer learning case study
- Training the Keras MobileNetV2 algorithm from scratch
- Keras API
- Custom Training Loop
- Estimator API
- Putting It All Together
- Troubleshooting
- Summary
- 9. PyTorch Distributed Machine Learning Approach
- A Quick Overview of PyTorch Basics
- Computation Graph
- PyTorch Mechanics and Concepts
- A Quick Overview of PyTorch Basics
- PyTorch Distributed Strategies for Training Models
- Introduction to PyTorchs Distributed Approach
- Distributed Data-Parallel Training
- RPC-Based Distributed Training
- Remote execution
- Remote references
- Using RRefs to orchestrate distributed algorithms
- Identifying objects by reference
- Distributed autograd
- The distributed optimizer
- Communication Topologies in PyTorch (c10d)
- Collective communication in PyTorch
- Peer-to-peer communication in PyTorch
- What Can We Do with PyTorchs Low-Level APIs?
- Loading Data with PyTorch and Petastorm
- Troubleshooting Guidance for Working with Petastorm and Distributed PyTorch
- The Enigma of Mismatched Data Types
- The Mystery of Straggling Workers
- How Does PyTorch Differ from TensorFlow?
- Summary
- 10. Deployment Patterns for Machine Learning Models
- Deployment Patterns
- Pattern 1: Batch Prediction
- Pattern 2: Model-in-Service
- Pattern 3: Model-as-a-Service
- Determining Which Pattern to Use
- Production Software Requirements
- Deployment Patterns
- Monitoring Machine Learning Models in Production
- Data Drift
- Model Drift, Concept Drift
- Distributional Domain Shift (the Long Tail)
- What Metrics Should I Monitor in Production?
- How Do I Measure Changes Using My Monitoring System?
- Define a reference
- Measure the reference against fresh metrics values
- Algorithms to use for measuring
- What It Looks Like in Production
- The Production Feedback Loop
- Deploying with MLlib
- Production Machine Learning Pipelines with Structured Streaming
- Deploying with MLflow
- Defining an MLflow Wrapper
- Deploying the Model as a Microservice
- Loading the Model as a Spark UDF
- How to Develop Your System Iteratively
- Summary
- Index
O'Reilly Media - inne książki
-
Keeping up with the Python ecosystem can be daunting. Its developer tooling doesn't provide the out-of-the-box experience native to languages like Rust and Go. When it comes to long-term project maintenance or collaborating with others, every Python project faces the same problem: how to build re...(203.15 zł najniższa cena z 30 dni)
209.34 zł
249.00 zł(-16%) -
Bringing a deep-learning project into production at scale is quite challenging. To successfully scale your project, a foundational understanding of full stack deep learning, including the knowledge that lies at the intersection of hardware, software, data, and algorithms, is required.This book il...(237.15 zł najniższa cena z 30 dni)
250.75 zł
289.00 zł(-13%) -
Frontend developers have to consider many things: browser compatibility, usability, performance, scalability, SEO, and other best practices. But the most fundamental aspect of creating websites is one that often falls short: accessibility. Accessibility is the cornerstone of any website, and if a...(194.65 zł najniższa cena z 30 dni)
208.35 zł
249.00 zł(-16%) -
In this insightful and comprehensive guide, Addy Osmani shares more than a decade of experience working on the Chrome team at Google, uncovering secrets to engineering effectiveness, efficiency, and team success. Engineers and engineering leaders looking to scale their effectiveness and drive tra...(118.15 zł najniższa cena z 30 dni)
122.29 zł
149.00 zł(-18%) -
Data modeling is the single most overlooked feature in Power BI Desktop, yet it's what sets Power BI apart from other tools on the market. This practical book serves as your fast-forward button for data modeling with Power BI, Analysis Services tabular, and SQL databases. It serves as a starting ...(194.65 zł najniższa cena z 30 dni)
207.75 zł
249.00 zł(-17%) -
C# is undeniably one of the most versatile programming languages available to engineers today. With this comprehensive guide, you'll learn just how powerful the combination of C# and .NET can be. Author Ian Griffiths guides you through C# 12.0 and .NET 8 fundamentals and techniques for building c...(228.65 zł najniższa cena z 30 dni)
251.14 zł
289.00 zł(-13%) -
Learn how to get started with Futures Thinking. With this practical guide, Phil Balagtas, founder of the Design Futures Initiative and the global Speculative Futures network, shows you how designers and futurists have made futures work at companies such as Atari, IBM, Apple, Disney, Autodesk, Luf...(152.15 zł najniższa cena z 30 dni)
156.85 zł
189.00 zł(-17%) -
Augmented Analytics isn't just another book on data and analytics; it's a holistic resource for reimagining the way your entire organization interacts with information to become insight-driven.Moving beyond traditional, limited ways of making sense of data, Augmented Analytics provides a dynamic,...(177.65 zł najniższa cena z 30 dni)
182.55 zł
219.00 zł(-17%) -
Learn how to prepare for—and pass—the Kubernetes and Cloud Native Associate (KCNA) certification exam. This practical guide serves as both a study guide and point of entry for practitioners looking to explore and adopt cloud native technologies. Adrián González Sánchez ...
Kubernetes and Cloud Native Associate (KCNA) Study Guide Kubernetes and Cloud Native Associate (KCNA) Study Guide
(169.14 zł najniższa cena z 30 dni)177.65 zł
209.00 zł(-15%) -
Python is an excellent way to get started in programming, and this clear, concise guide walks you through Python a step at a time—beginning with basic programming concepts before moving on to functions, data structures, and object-oriented design. This revised third edition reflects the gro...(150.02 zł najniższa cena z 30 dni)
149.92 zł
179.00 zł(-16%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
![Loader](https://static01.helion.com.pl/ebookpoint/img/ajax-loader.gif)
![ajax-loader](https://static01.helion.com.pl/ebookpoint/img/ajax-loader.gif)
Oceny i opinie klientów: Scaling Machine Learning with Spark Adi Polak (0)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.