Data Analytics with Hadoop. An Introduction for Data Scientists
- Autorzy:
- Benjamin Bengfort, Jenny Kim
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 288
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Data Analytics with Hadoop. An Introduction for Data Scientists
Ready to use statistical and machine-learning techniques across large data sets? This practical guide shows you why the Hadoop ecosystem is perfect for the job. Instead of deployment, operations, or software development usually associated with distributed computing, you’ll focus on particular analyses you can build, the data warehousing techniques that Hadoop provides, and higher order data workflows this framework can produce.
Data scientists and analysts will learn how to perform a wide range of techniques, from writing MapReduce and Spark applications with Python to using advanced modeling and data management with Spark MLlib, Hive, and HBase. You’ll also learn about the analytical processes and data systems available to build and empower data products that can handle—and actually require—huge amounts of data.
- Understand core concepts behind Hadoop and cluster computing
- Use design patterns and parallel analytical algorithms to create distributed data analysis jobs
- Learn about data management, mining, and warehousing in a distributed context using Apache Hive and HBase
- Use Sqoop and Apache Flume to ingest data from relational databases
- Program complex Hadoop and Spark applications with Apache Pig and Spark DataFrames
- Perform machine learning techniques such as classification, clustering, and collaborative filtering with Spark’s MLlib
Wybrane bestsellery
-
From news and speeches to informal chatter on social media, natural language is one of the richest and most underutilized sources of data. Not only does it come in a constant stream, always changing and adapting in context; it also contains information that is not conveyed by traditional data sou...
Applied Text Analysis with Python. Enabling Language-Aware Data Products with Machine Learning Applied Text Analysis with Python. Enabling Language-Aware Data Products with Machine Learning
(186.15 zł najniższa cena z 30 dni)186.15 zł
219.00 zł(-15%) -
Tę książkę docenią wszyscy zainteresowani eksploracją danych i uczeniem maszynowym, którzy chcieliby pewnie poruszać się w świecie nauki o danych. Pokazano tu, w jaki sposób Excel pozwala zobrazować proces ich eksplorowania i jak działają poszczególne techniki w tym zakresie. Przejrzyście wyjaśni...
Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku
(40.20 zł najniższa cena z 30 dni)46.90 zł
67.00 zł(-30%) -
Power Apps to platforma stworzona przez Microsoft, umożliwiająca łatwe projektowanie, tworzenie i dostosowywanie aplikacji bez konieczności posiadania głębokiej wiedzy programistycznej. Z użyciem Power Apps można budować niestandardowe aplikacje, które efektywnie wspierają i automatyzują różne pr...
Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code
(39.90 zł najniższa cena z 30 dni)89.54 zł
199.00 zł(-55%) -
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zesp...
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(32.90 zł najniższa cena z 30 dni)36.84 zł
67.00 zł(-45%) -
Oto drugie, zaktualizowane i uzupełnione wydanie przewodnika po bibliotece Pandas. Dzięki tej przystępnej książce nauczysz się w pełni korzystać z możliwości oferowanych przez bibliotekę, nawet jeśli dopiero zaczynasz przygodę z analizą danych w Pythonie. Naukę rozpoczniesz z użyciem rzeczywisteg...
Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II
(65.40 zł najniższa cena z 30 dni)76.30 zł
109.00 zł(-30%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(41.40 zł najniższa cena z 30 dni)48.30 zł
69.00 zł(-30%) -
Ta książka jest trzecim, starannie zaktualizowanym wydaniem wyczerpującego przewodnika po narzędziach analitycznych Pythona. Uwzględnia Pythona 3.0 i bibliotekę pandas 1.4. Została napisana w przystępny sposób, a poszczególne zagadnienia bogato zilustrowano przykładami, studiami rzeczywistych prz...
Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III
(71.40 zł najniższa cena z 30 dni)83.30 zł
119.00 zł(-30%) -
Dzięki tej książce nauczysz się przekształcać suche dane liczbowe w pełną empatii narrację! Aby spełniły one swoje zadanie, ktoś musi przedstawić zawarte w nich informacje w postaci opowieści. W tej publikacji wyczerpująco i praktycznie opisano przebieg tego procesu. Jej lektura sprawi, że rozwin...
Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji
(20.90 zł najniższa cena z 30 dni)20.90 zł
67.00 zł(-69%) -
W złożonej rzeczywistości myślenie systemowe jest kluczowym narzędziem pozwalającym odnieść się do licznych wyzwań: gospodarczych, ekologicznych, politycznych czy społecznych. Tylko w ten sposób w codziennych wiadomościach można dostrzec przejawy trendów, a w trendach — przeja...(29.94 zł najniższa cena z 30 dni)
34.93 zł
49.90 zł(-30%) -
Ta książka jest przewodnikiem dla każdego, kto musi przekazywać informacje, robiąc przy tym użytek z danych. Szczególnie wartościowa będzie dla analityków, studentów i naukowców, a także dla każdego, kto w swojej komunikacji odwołuje się do danych. Pokazano tu prostą i intuicyjną technikę przedst...
Storytelling danych. Poradnik wizualizacji danych dla profesjonalistów Storytelling danych. Poradnik wizualizacji danych dla profesjonalistów
(46.20 zł najniższa cena z 30 dni)53.90 zł
77.00 zł(-30%)
Ebooka "Data Analytics with Hadoop. An Introduction for Data Scientists" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Data Analytics with Hadoop. An Introduction for Data Scientists" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Data Analytics with Hadoop. An Introduction for Data Scientists" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-14-919-1375-8, 9781491913758
- Data wydania ebooka:
- 2016-06-01 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 5.6MB
- Rozmiar pliku Mobi:
- 5.6MB
Spis treści ebooka
- Preface
- What to Expect from This Book
- Who This Book Is For
- How to Read This Book
- Overview of Chapters
- Programming and Code Examples
- GitHub Repository
- Executing Distributed Jobs
- Permissions and Citation
- Feedback and How to Contact Us
- Safari Books Online
- How to Contact Us
- Acknowledgments
- I. Introduction to Distributed Computing
- 1. The Age of the Data Product
- What Is a Data Product?
- Building Data Products at Scale with Hadoop
- Leveraging Large Datasets
- Hadoop for Data Products
- The Data Science Pipeline and the Hadoop Ecosystem
- Big Data Workflows
- Conclusion
- 2. An Operating System for Big Data
- Basic Concepts
- Hadoop Architecture
- A Hadoop Cluster
- HDFS
- Blocks
- Data management
- YARN
- Working with a Distributed File System
- Basic File System Operations
- File Permissions in HDFS
- Other HDFS Interfaces
- Working with Distributed Computation
- MapReduce: A Functional Programming Model
- MapReduce: Implemented on a Cluster
- MapReduce examples
- Beyond a Map and Reduce: Job Chaining
- Submitting a MapReduce Job to YARN
- Conclusion
- 3. A Framework for Python and Hadoop Streaming
- Hadoop Streaming
- Computing on CSV Data with Streaming
- Executing Streaming Jobs
- Hadoop Streaming
- A Framework for MapReduce with Python
- Counting Bigrams
- Other Frameworks
- Advanced MapReduce
- Combiners
- Partitioners
- Job Chaining
- Conclusion
- 4. In-Memory Computing with Spark
- Spark Basics
- The Spark Stack
- Resilient Distributed Datasets
- Programming with RDDs
- Spark Basics
- Interactive Spark Using PySpark
- Writing Spark Applications
- Visualizing Airline Delays with Spark
- Conclusion
- 5. Distributed Analysis and Patterns
- Computing with Keys
- Compound Keys
- Compound data serialization
- Compound Keys
- Keyspace Patterns
- Transforming the keyspace
- The explode mapper
- The filter mapper
- The identity pattern
- Computing with Keys
- Pairs versus Stripes
- Design Patterns
- Summarization
- Aggregation
- Statistical summarization
- Summarization
- Indexing
- Inverted index
- TF-IDF
- Filtering
- Top n records
- Simple random sample
- Bloom filtering
- Toward Last-Mile Analytics
- Fitting a Model
- Validating Models
- Conclusion
- II. Workflows and Tools for Big Data Science
- 6. Data Mining and Warehousing
- Structured Data Queries with Hive
- The Hive Command-Line Interface (CLI)
- Hive Query Language (HQL)
- Creating a database
- Creating tables
- Loading data
- Data Analysis with Hive
- Grouping
- Aggregations and joins
- Structured Data Queries with Hive
- HBase
- NoSQL and Column-Oriented Databases
- Real-Time Analytics with HBase
- Generating a schema
- Namespaces, tables, and column families
- Row keys
- Inserting data with put
- Get row or cell values
- Scan rows
- Filters
- Further reading on HBase
- Conclusion
- 7. Data Ingestion
- Importing Relational Data with Sqoop
- Importing from MySQL to HDFS
- Importing from MySQL to Hive
- Importing from MySQL to HBase
- Importing Relational Data with Sqoop
- Ingesting Streaming Data with Flume
- Flume Data Flows
- Ingesting Product Impression Data with Flume
- Conclusion
- 8. Analytics with Higher-Level APIs
- Pig
- Pig Latin
- Relations and tuples
- Filtering
- Projection
- Grouping and joining
- Storing and outputting data
- Pig Latin
- Data Types
- Relational Operators
- User-Defined Functions
- Wrapping Up
- Pig
- Sparks Higher-Level APIs
- Spark SQL
- DataFrames
- Data wrangling DataFrames
- Conclusion
- 9. Machine Learning
- Scalable Machine Learning with Spark
- Collaborative Filtering
- User-based recommender: An example
- Collaborative Filtering
- Classification
- Logistic regression classification: An example
- Scalable Machine Learning with Spark
- Clustering
- k-means clustering: An example
- Conclusion
- 10. Summary: Doing Distributed Data Science
- Data Product Lifecycle
- Data Lakes
- Data Ingestion
- Computational Data Stores
- Relational approaches: Hive
- NoSQL approaches: HBase
- Data Product Lifecycle
- Machine Learning Lifecycle
- Conclusion
- A. Creating a Hadoop Pseudo-Distributed Development Environment
- Quick Start
- Setting Up Linux
- Creating a Hadoop User
- Configuring SSH
- Installing Java
- Disabling IPv6
- Installing Hadoop
- Unpacking
- Environment
- Hadoop Configuration
- Formatting the Namenode
- Starting Hadoop
- Restarting Hadoop
- B. Installing Hadoop Ecosystem Products
- Packaged Hadoop Distributions
- Self-Installation of Apache Hadoop Ecosystem Products
- Basic Installation and Configuration Steps
- Sqoop-Specific Configurations
- Hive-Specific Configuration
- Hive warehouse directory
- Hive metastore database
- Verifying Hive is running
- HBase-Specific Configurations
- Starting HBase
- Installing Spark
- Minimizing the verbosity of Spark
- Glossary
- Index
O'Reilly Media - inne książki
-
JavaScript gives web developers great power to create rich interactive browser experiences, and much of that power is provided by the browser itself. Modern web APIs enable web-based applications to come to life like never before, supporting actions that once required browser plug-ins. Some are s...(177.65 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
How will software development and operations have to change to meet the sustainability and green needs of the planet? And what does that imply for development organizations? In this eye-opening book, sustainable software advocates Anne Currie, Sarah Hsu, and Sara Bergman provide a unique overview...(160.65 zł najniższa cena z 30 dni)
177.65 zł
209.00 zł(-15%) -
OpenTelemetry is a revolution in observability data. Instead of running multiple uncoordinated pipelines, OpenTelemetry provides users with a single integrated stream of data, providing multiple sources of high-quality telemetry data: tracing, metrics, logs, RUM, eBPF, and more. This practical gu...(143.65 zł najniższa cena z 30 dni)
152.15 zł
179.00 zł(-15%) -
Interested in developing embedded systems? Since they don't tolerate inefficiency, these systems require a disciplined approach to programming. This easy-to-read guide helps you cultivate good development practices based on classic software design patterns and new patterns unique to embedded prog...(152.15 zł najniższa cena z 30 dni)
160.65 zł
189.00 zł(-15%) -
If you use Linux in your day-to-day work, then Linux Pocket Guide is the perfect on-the-job reference. This thoroughly updated 20th anniversary edition explains more than 200 Linux commands, including new commands for file handling, package management, version control, file format conversions, an...(92.65 zł najniższa cena z 30 dni)
101.15 zł
119.00 zł(-15%) -
Gain the valuable skills and techniques you need to accelerate the delivery of machine learning solutions. With this practical guide, data scientists, ML engineers, and their leaders will learn how to bridge the gap between data science and Lean product delivery in a practical and simple way. Dav...(245.65 zł najniższa cena z 30 dni)
254.15 zł
299.00 zł(-15%) -
This practical book provides a detailed explanation of the zero trust security model. Zero trust is a security paradigm shift that eliminates the concept of traditional perimeter-based security and requires you to "always assume breach" and "never trust but always verify." The updated edition off...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Decentralized finance (DeFi) is a rapidly growing field in fintech, having grown from $700 million to $100 billion over the past three years alone. But the lack of reliable information makes this area both risky and murky. In this practical book, experienced securities attorney Alexandra Damsker ...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Whether you're a startup founder trying to disrupt an industry or an entrepreneur trying to provoke change from within, your biggest challenge is creating a product people actually want. Lean Analytics steers you in the right direction.This book shows you how to validate your initial idea, find t...(126.65 zł najniższa cena z 30 dni)
126.65 zł
149.00 zł(-15%) -
When it comes to building user interfaces on the web, React enables web developers to unlock a new world of possibilities. This practical book helps you take a deep dive into fundamental concepts of this JavaScript library, including JSX syntax and advanced patterns, the virtual DOM, React reconc...(194.65 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Data Analytics with Hadoop. An Introduction for Data Scientists Benjamin Bengfort, Jenny Kim (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.