Learning Apache Drill. Query and Analyze Distributed Data Sources with SQL
- Autorzy:
- Charles Givre, Paul Rogers
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 332
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Learning Apache Drill. Query and Analyze Distributed Data Sources with SQL
Get up to speed with Apache Drill, an extensible distributed SQL query engine that reads massive datasets in many popular file formats such as Parquet, JSON, and CSV. Drill reads data in HDFS or in cloud-native storage such as S3 and works with Hive metastores along with distributed databases such as HBase, MongoDB, and relational databases. Drill works everywhere: on your laptop or in your largest cluster.
In this practical book, Drill committers Charles Givre and Paul Rogers show analysts and data scientists how to query and analyze raw data using this powerful tool. Data scientists today spend about 80% of their time just gathering and cleaning data. With this book, you’ll learn how Drill helps you analyze data more effectively to drive down time to insight.
- Use Drill to clean, prepare, and summarize delimited data for further analysis
- Query file types including logfiles, Parquet, JSON, and other complex formats
- Query Hadoop, relational databases, MongoDB, and Kafka with standard SQL
- Connect to Drill programmatically using a variety of languages
- Use Drill even with challenging or ambiguous file formats
- Perform sophisticated analysis by extending Drill’s functionality with user-defined functions
- Facilitate data analysis for network security, image metadata, and machine learning
Wybrane bestsellery
-
Firmy z branży IT prześcigają się w tworzeniu rozwiązań zwiększających wydajność pracy, jak również podnoszących poziom specjalizacji pracowników w określonych dziedzinach. Od kilku już lat pozycja full stack developera, który wykonywał wszystkie prace programistyczne, jest wielką rzadkością. Obe...
Postman i SQL. Kurs video. Metody testowania REST API i przeszukiwania baz danych Postman i SQL. Kurs video. Metody testowania REST API i przeszukiwania baz danych
(39.90 zł najniższa cena z 30 dni)103.34 zł
159.00 zł(-35%) -
Ta książka stanowi świetne wprowadzenie do analizy danych. Dzięki niej nauczysz się korzystać z surowych danych, nawet jeśli nie masz odpowiedniego doświadczenia. Zaczniesz od formułowania hipotez i generowania statystyk opisowych, a następnie przystąpisz do pisania zapytań w języku SQL w celu ag...
SQL dla analityków danych. Opanuj możliwości SQL-a, aby wydobywać informacje z danych. Wydanie III SQL dla analityków danych. Opanuj możliwości SQL-a, aby wydobywać informacje z danych. Wydanie III
(65.40 zł najniższa cena z 30 dni)70.85 zł
109.00 zł(-35%) -
To trzecie, poprawione i zaktualizowane wydanie praktycznego przewodnika po języku SQL i relacyjnych bazach danych. Przemyślana, uporządkowana struktura podręcznika sprzyja sprawnemu nabywaniu wiedzy i doskonaleniu umiejętności — pracę z nim ułatwiają przystępny sposób prezentowania materia...(41.40 zł najniższa cena z 30 dni)
44.85 zł
69.00 zł(-35%) -
Cathy Tanimura jest analityczką danych z ponad dwudziestoletnim doświadczeniem. Odnosiła również sukcesy, budując zespoły do spraw analizy danych i tworząc potrzebną infrastrukturę. Zajmowała się także zarządzaniem zespołami w kilku czołowych firmach technologicznych. Od wielu lat używa języka SQ...
Analiza danych z wykorzystaniem SQL-a. Zaawansowane techniki przekształcania danych we wnioski Analiza danych z wykorzystaniem SQL-a. Zaawansowane techniki przekształcania danych we wnioski
(41.40 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
Dla niewtajemniczonych: QGIS to otwarte, bezpłatne oprogramowanie pozwalające w intuicyjny sposób zarządzać istniejącymi zbiorami geograficznymi dostępnymi w internecie, tworzyć własne dane, wykonywać analizy przestrzenne i - przede wszystkim - publikować ciekawe mapy. Program jest niezwykle pros...(59.40 zł najniższa cena z 30 dni)
64.35 zł
99.00 zł(-35%) -
Jeśli myślisz o karierze analityka danych albo starasz się o pracę na stanowisku, na którym będziesz analizować dane, ten kurs jest specjalnie dla Ciebie. Opanujesz dzięki niemu między innymi niezbędne podstawy języka SQL i dowiesz się, jak funkcjonuje i do czego może Ci posłużyć system zarządzan...
SQL dla analityków danych. Kurs video. Kompleksowe przygotowanie do pracy SQL dla analityków danych. Kurs video. Kompleksowe przygotowanie do pracy
(202.43 zł najniższa cena z 30 dni)112.05 zł
249.00 zł(-55%) -
Ludzkość od zarania dziejów miała potrzebę zapisywania i porządkowania danych – pierwsze tabliczki gliniane z zapisanymi informacjami handlowymi pochodzą z 3500 roku p.n.e. Na przestrzeni wieków pojawiło się wiele technik gromadzenia danych, jednak dopiero wraz z rozwojem technologii komput...
SQL Server. Kurs video. Zarządzanie danymi i bazami danych krok po kroku SQL Server. Kurs video. Zarządzanie danymi i bazami danych krok po kroku
(77.35 zł najniższa cena z 30 dni)59.50 zł
119.00 zł(-50%) -
With the shift from data warehouses to data lakes, data now lands in repositories before it's been transformed, enabling engineers to model raw data into clean, well-defined datasets. dbt (data build tool) helps you take data further. This practical book shows data analysts, data engineers, BI de...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
If you were handed two different but related sets of data, what tools would you use to find the matches? What if all you had was SQL SELECT access to a database? In this practical book, author Jim Lehmer provides best practices, techniques, and tricks to help you import, clean, match, score, and ...(186.15 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
To help you on the path to becoming a Snowflake pro, this concise yet comprehensive guide reviews fundamentals and best practices for Snowflake's SQL and Scripting languages. Developers and data professionals will learn how to generate, modify, and query data in the Snowflake relational database ...(245.65 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%)
Ebooka "Learning Apache Drill. Query and Analyze Distributed Data Sources with SQL" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Learning Apache Drill. Query and Analyze Distributed Data Sources with SQL" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Learning Apache Drill. Query and Analyze Distributed Data Sources with SQL" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-14-920-3275-5, 9781492032755
- Data wydania ebooka:
- 2018-11-02 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 5.2MB
- Rozmiar pliku Mobi:
- 5.2MB
Spis treści ebooka
- Preface
- Who Should Read This Book
- Why We Wrote This Book
- Navigating This Book
- Online Resources
- Conventions Used in This Book
- Using Code Examples
- OReilly Safari
- How to Contact Us
- Acknowledgments
- Special Thanks from Charles
- Special Thanks from Paul
- 1. Introduction to Apache Drill
- What Is Apache Drill?
- Drill Is Versatile
- Drill Is Easy to Use
- Drill does not require you to define a schema
- A Word About Drills Performance
- A Very Brief History of Big Data
- Hadoop
- What Is Apache Drill?
- Drill in the Big Data Ecosystem
- Comparing Drill with Similar Tools
- 2. Installing and Running Drill
- Preparing Your Machine for Drill
- Special Configuration Instructions for Windows Installations
- Preparing Your Machine for Drill
- Installing Drill on Windows
- Starting Drill on a Windows Machine
- Installing Drill in Embedded Mode on macOS or Linux
- Starting Drill on macOS or Linux in Embedded Mode
- Installing Drill in Distributed Mode on macOS or Linux
- Preparing Your Cluster for Drill
- Starting Drill in Distributed Mode
- Connecting to the Cluster
- Conclusion
- 3. Overview of Apache Drill
- The Apache Hadoop Ecosystem
- Drill Is a Low-Latency Query Engine
- Distributed Processing with HDFS
- Elements of a Drill System
- Drill Operation: The 30,000-Foot View
- Drill Is a Query Engine, Not a Database
- The Apache Hadoop Ecosystem
- Drill Operation Overview
- Drill Components
- SQL Session State
- Statement Preparation
- Parsing and semantic analysis
- Logical and physical plans
- Distribution
- Statement Execution
- Data representation
- Low-Latency Features
- Long-lived Drillbits
- Code generation
- Network exchanges
- Conclusion
- 4. Querying Delimited Data
- Ways of Querying Data with Drill
- Other Interfaces
- Ways of Querying Data with Drill
- Drill SQL Query Format
- Choosing a Data Source
- Defining a Workspace
- Specifying a Default Data Source
- Accessing Columns in a Query
- Delimited Data with Column Headers
- Table Functions
- Querying Directories
- Directory functions
- Understanding Drill Data Types
- Cleaning and Preparing Data Using String Manipulation Functions
- Complex Data Conversion Functions
- Reformatting numbers
- Complex Data Conversion Functions
- Working with Dates and Times in Drill
- Converting Strings to Dates
- Reformatting Dates
- Date Arithmetic and Manipulation
- Date and Time Functions in Drill
- Creating Views
- Data Analysis Using Drill
- Summarizing Data with Aggregate Functions
- Other analytic functions: Window functions
- Comparison of aggregate and window analytic functions
- Summarizing Data with Aggregate Functions
- Common Problems in Querying Delimited Data
- Spaces in Column Names
- Illegal Characters in Column Headers
- Reserved Words in Column Names
- Conclusion
- 5. Analyzing Complex and Nested Data
- Arrays and Maps
- Arrays in Drill
- Accessing Maps (KeyValue Pairs) in Drill
- Querying Nested Data
- Data types in JSON files
- Formats of nested data
- Querying record-oriented files
- Using the FLATTEN() function to query split JSON files
- Querying column-oriented JSON files with KVGEN()
- Arrays and Maps
- Analyzing Log Files with Drill
- Configuring Drill to Read HTTPD Web Server Logs
- Querying Web Server Logs
- Analyzing user agent strings
- Analyzing URLs and query strings
- Other Log Analysis with Drill
- Conclusion
- 6. Connecting Drill to Data Sources
- Querying Multiple Data Sources
- Configuring a New Storage Plug-in
- Connecting Drill to a Relational Database
- Configuring Drill to query an RDBMS
- Microsoft SQL Server
- MySQL
- Oracle
- PostgreSQL
- SQLite
- Configuring Drill to query an RDBMS
- Querying an RDBMS from Drill
- Other uses of the drill JDBC storage plug-in
- Querying Multiple Data Sources
- Querying Data in Hadoop from Drill
- Connecting to and Querying HBase from Drill
- Querying data from HBase
- Querying Hive Data from Drill
- Connecting Drill to Hive
- Connecting to Hive with a remote metastore
- Connecting Drill to Hive
- Connecting to and Querying Streaming Data with Drill and Kafka
- Querying streaming data
- Improving the performance of Kafka queries
- Connecting to and Querying Kudu
- Connecting to and Querying MongoDB from Drill
- Connecting Drill to Cloud Storage
- Querying data on Amazon S3
- Getting access credentials for S3
- Querying data on Amazon S3
- Querying Minio datastores from drill
- Connecting to other cloud storage services
- Querying Time Series Data from Drill and OpenTSDB
- Special considerations for time series data
- Conclusion
- 7. Connecting to Drill
- Understanding Drills Interfaces
- JDBC and Drill
- ODBC and Drill
- Installing the ODBC driver
- Configuring ODBC on Linux or macOS
- Configuring ODBC on Windows
- Installing the ODBC driver
- Drills REST Interface
- Understanding Drills Interfaces
- Connecting to Drill with Python
- Using drillpy to Query Drill
- Connecting to Drill Using pydrill
- Other functionality of pydrill
- Other Ways of Connecting to Drill from Python
- Connecting to Drill Using R
- Querying Drill from R Using sergeant
- Accessing other functionality in R
- Querying Drill from R Using sergeant
- Connecting to Drill Using Java
- Querying Drill with PHP
- Using the Connector
- Querying Drill from PHP
- Interacting with Drill from PHP
- Querying Drill Using Node.js
- Using Drill as a Data Source in BI Tools
- Exploring Data with Apache Zeppelin and Drill
- Configuring Zeppelin to query Drill
- Querying Drill from a Zeppelin notebook
- Adding interactivity in Zeppelin
- Exploring Data with Apache Zeppelin and Drill
- Exploring Data with Apache Superset
- Configuring Superset to work with Drill
- Building a demonstration visualization using Drill and Superset
- Conclusion
- 8. Data Engineering with Drill
- Schema-on-Read
- The SQL Relational Model
- Data Life Cycle: Data Exploration to Production
- Schema Inference
- Schema-on-Read
- Data Source Inference
- Storage Plug-ins
- Storage Configurations
- Workspaces
- Querying Directories
- Default Schema
- File Type Inference
- Format Plug-ins and Format Configuration
- Format Inference
- File Format Variations
- Schema Inference Overview
- Distributed File Scans
- Schema Inference for Delimited Data
- CSV with header
- Explicit projection
- TypeOf functions
- Casts to specify types
- Schema Inference for Delimited Data
- CSV Summary
- CSV without a header row
- Explicit projection
- Schema Inference for JSON
- JSON column names
- JSON scalar types
- Ambiguous Numeric Schemas
- Mixed string and number types
- Missing values
- Leading null values
- Null versus missing values in JSON output
- Aligning Schemas Across Files
- JSON Objects
- JSON Lists in Drill
- JSON Summary
- Using Drill with the Parquet File Format
- Schema Evolution in Parquet
- Partitioning Data Directories
- Defining a Table Workspace
- Working with Queries in Production
- Capturing Schema Mapping in Views
- Running Challenging Queries in Scripts
- Conclusion
- 9. Deploying Drill in Production
- Installing Drill
- Prerequisites
- Production Installation
- Creating a Site Directory
- Configuring ZooKeeper
- Advanced ZooKeeper configuration
- Installing Drill
- Configuring Memory
- Configuring Logging
- Testing the Installation
- Distributing Drill Binaries and Configuration
- Installing clush
- Distributing Drill files
- Starting the Drill Cluster
- Configuring Storage
- Working with Apache Hadoop HDFS
- Simple HDFS integration
- Full HDFS integration
- Working with Apache Hadoop HDFS
- Working with Amazon S3
- Access keys with Hadoop
- Standalone Drill
- Distributing the configuration
- Defining the Amazon S3 storage configuration
- Troubleshooting
- Admission Control
- Additional Configuration
- User-Defined Functions and Custom Plug-ins
- Security
- Logging Levels
- Controlling CPU Usage
- Monitoring
- Monitoring the Drill Process
- Monitoring JMX Metrics
- Monitoring Queries
- Other Deployment Options
- MapR Installer
- Drill-on-YARN
- Docker
- Conclusion
- 10. Setting Up Your Development Environment
- Installing Maven
- Creating the Drill Build Environment
- Setting Up Git and Getting the Source Code
- Building Drill from Source
- Installing the IDE
- Conclusion
- 11. Writing Drill User-Defined Functions
- Use Case: Finding and Filtering Valid Credit Card Numbers
- How User-Defined Functions Work in Drill
- Structure of a Simple Drill UDF
- The pom.xml File
- Including dependencies
- The pom.xml File
- The Function File
- Defining input parameters
- Setting the output value
- Accessing data in holder objects
- The Simple Function API
- Putting It All Together
- Building and Installing Your UDF
- Statically Installing a UDF
- Dynamically Installing a UDF
- Complex Functions: UDFs That Return Maps or Arrays
- Example: Extracting User Agent Metadata
- The ComplexWriter
- Writing Aggregate User-Defined Functions
- The Aggregate Function API
- Example Aggregate UDF: Kendalls Rank Correlation Coefficient
- Conclusion
- 12. Writing a Format Plug-in
- The Example Regex Format Plug-in
- Creating the Easy Format Plug-in
- Creating the Maven pom.xml File
- Creating the Plug-in Package
- Drill Module Configuration
- Format Plug-in Configuration
- Cautions Before Getting Started
- Creating the Regex Plug-in Configuration Class
- Copyright Headers and Code Format
- Testing the Configuration
- Fixing Configuration Problems
- Troubleshooting
- Creating the Format Plug-in Class
- Creating a Test File
- Configuring RAT
- Efficient Debugging
- Creating the Unit Test
- How Drill Finds Your Plug-in
- The Record Reader
- Testing the Reader Shell
- Logging
- Error Handling
- Setup
- Regex Parsing
- Defining Column Names
- Projection
- Column Projection Accounting
- Project None
- Project All
- Project Some
- Opening the File
- Record Batches
- Drills Columnar Structure
- Defining Vectors
- Reading Data
- Loading Data into Vectors
- Releasing Resources
- Testing the Reader
- Testing the Wildcard Case
- Testing Explicit Projection
- Testing Empty Projection
- Scaling Up
- Additional Details
- File Chunks
- Default Format Configuration
- Next Steps
- Production Build
- Contributing to Drill: The Pull Request
- Maintaining Your Branch
- Create a Plug-In Project
- Conclusion
- 13. Unique Uses of Drill
- Finding Photos Taken Within a Geographic Region
- Drilling Excel Files
- The pom.xml File
- The Excel Custom Record Reader
- Using the Excel Format Plug-in
- Network Packet Analysis (PCAP) with Drill
- Examples of Queries Using PCAP Data Files
- Automating the process using an aggregate function
- Examples of Queries Using PCAP Data Files
- Analyzing Twitter Data with Drill
- Using Drill in a Machine Learning Pipeline
- Making Predictions Within Drill
- Building and Serializing a Model
- Writing the UDF Wrapper
- Making Predictions Using the UDF
- Conclusion
- A. List of Drill Functions
- Aggregate and Window Functions
- Window Functions
- Aggregate and Window Functions
- Cryptological and Hashing Functions
- Data Conversion Functions
- Geospatial Functions
- Math and Trigonometric Functions
- Networking Functions
- Null Handling Functions
- String Manipulation Functions
- Approximate String Matching Functions
- Phonetic Functions
- String Distance Functions
- B. Drill Formatting Strings
- Index
O'Reilly Media - inne książki
-
Software as a service (SaaS) is on the path to becoming the de facto model for building, delivering, and operating software solutions. Adopting a multi-tenant SaaS model requires builders to take on a broad range of new architecture, implementation, and operational challenges. How data is partiti...(237.15 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
Great engineers don't necessarily make great leaders—at least, not without a lot of work. Finding your path to becoming a strong leader is often fraught with challenges. It's not easy to figure out how to be strategic, successful, and considerate while also being firm. Whether you're on the...(118.15 zł najniższa cena z 30 dni)
126.65 zł
149.00 zł(-15%) -
Data science happens in code. The ability to write reproducible, robust, scaleable code is key to a data science project's success—and is absolutely essential for those working with production code. This practical book bridges the gap between data science and software engineering,and clearl...(211.65 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%) -
With the massive adoption of microservices, operators and developers face far more complexity in their applications today. Service meshes can help you manage this problem by providing a unified control plane to secure, manage, and monitor your entire network. This practical guide shows you how th...(194.65 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Get practical advice on how to leverage AI development tools for all stages of code creation, including requirements, planning, design, coding, debugging, testing, and documentation. With this book, beginners and experienced developers alike will learn how to use a wide range of tools, from gener...(177.65 zł najniższa cena z 30 dni)
164.25 zł
219.00 zł(-25%) -
Rust's popularity is growing, due in part to features like memory safety, type safety, and thread safety. But these same elements can also make learning Rust a challenge, even for experienced programmers. This practical guide helps you make the transition to writing idiomatic Rust—while als...(177.65 zł najniższa cena z 30 dni)
164.25 zł
219.00 zł(-25%) -
Advance your Power BI skills by adding AI to your repertoire at a practice level. With this practical book, business-oriented software engineers and developers will learn the terminologies, practices, and strategy necessary to successfully incorporate AI into your business intelligence estate. Je...(211.65 zł najniższa cena z 30 dni)
220.15 zł
259.00 zł(-15%) -
Microservices can be a very effective approach for delivering value to your organization and to your customers. If you get them right, microservices help you to move fast by making changes to small parts of your system hundreds of times a day. But if you get them wrong, microservices will just ma...(194.65 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
JavaScript gives web developers great power to create rich interactive browser experiences, and much of that power is provided by the browser itself. Modern web APIs enable web-based applications to come to life like never before, supporting actions that once required browser plug-ins. Some are s...(186.15 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
How will software development and operations have to change to meet the sustainability and green needs of the planet? And what does that imply for development organizations? In this eye-opening book, sustainable software advocates Anne Currie, Sarah Hsu, and Sara Bergman provide a unique overview...(160.65 zł najniższa cena z 30 dni)
177.65 zł
209.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Learning Apache Drill. Query and Analyze Distributed Data Sources with SQL Charles Givre, Paul Rogers (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.