- Ocena:
- 5.0/6 Opinie: 1
- Stron:
- 450
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Fundamentals of Data Engineering
Data engineering has grown rapidly in the past decade, leaving many software engineers, data scientists, and analysts looking for a comprehensive view of this practice. With this practical book, you'll learn how to plan and build systems to serve the needs of your organization and customers by evaluating the best technologies available through the framework of the data engineering lifecycle.
Authors Joe Reis and Matt Housley walk you through the data engineering lifecycle and show you how to stitch together a variety of cloud technologies to serve the needs of downstream data consumers. You'll understand how to apply the concepts of data generation, ingestion, orchestration, transformation, storage, and governance that are critical in any data environment regardless of the underlying technology.
This book will help you:
- Get a concise overview of the entire data engineering landscape
- Assess data engineering problems using an end-to-end framework of best practices
- Cut through marketing hype when choosing data technologies, architecture, and processes
- Use the data engineering lifecycle to design and build a robust architecture
- Incorporate data governance and security across the data engineering lifecycle
Wybrane bestsellery
-
Autorzy, Joe Reis i Matt Housley, przeprowadzą Cię przez cykl życia inżynierii danych i pokażą, jak połączyć różne technologie chmurowe, aby spełnić potrzeby konsumentów danych w dolnej części strumienia przetwarzania. Dzięki lekturze tej książki dowiesz się, jak zastosować koncepcje generowania,...
Inżynieria danych w praktyce. Kluczowe koncepcje i najlepsze technologie Inżynieria danych w praktyce. Kluczowe koncepcje i najlepsze technologie
(77.35 zł najniższa cena z 30 dni)71.40 zł
119.00 zł(-40%) -
Tę książkę docenią wszyscy zainteresowani eksploracją danych i uczeniem maszynowym, którzy chcieliby pewnie poruszać się w świecie nauki o danych. Pokazano tu, w jaki sposób Excel pozwala zobrazować proces ich eksplorowania i jak działają poszczególne techniki w tym zakresie. Przejrzyście wyjaśni...
Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku
(43.55 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
Power Apps to platforma stworzona przez Microsoft, umożliwiająca łatwe projektowanie, tworzenie i dostosowywanie aplikacji bez konieczności posiadania głębokiej wiedzy programistycznej. Z użyciem Power Apps można budować niestandardowe aplikacje, które efektywnie wspierają i automatyzują różne pr...
Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code
(69.65 zł najniższa cena z 30 dni)39.90 zł
199.00 zł(-80%) -
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zesp...
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(43.55 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
W dzisiejszej praktyce biznesowej duże znaczenie mają dane i ich analiza. W analizie zastosowanie znajduje wiele modeli statystycznych, implementowanych w różnych programach komputerowych. Na przykład Excel ma specjalny dodatek, nazwany po prostu Analiza Danych. Bardzo popularne narzędzie stanowi...
R i pakiet shiny. Kurs video. Interaktywne aplikacje w analizie danych R i pakiet shiny. Kurs video. Interaktywne aplikacje w analizie danych
(39.90 zł najniższa cena z 30 dni)39.90 zł
149.00 zł(-73%) -
Oto drugie, zaktualizowane i uzupełnione wydanie przewodnika po bibliotece Pandas. Dzięki tej przystępnej książce nauczysz się w pełni korzystać z możliwości oferowanych przez bibliotekę, nawet jeśli dopiero zaczynasz przygodę z analizą danych w Pythonie. Naukę rozpoczniesz z użyciem rzeczywisteg...
Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II
(70.85 zł najniższa cena z 30 dni)65.40 zł
109.00 zł(-40%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(44.85 zł najniższa cena z 30 dni)41.40 zł
69.00 zł(-40%) -
Ta książka jest trzecim, starannie zaktualizowanym wydaniem wyczerpującego przewodnika po narzędziach analitycznych Pythona. Uwzględnia Pythona 3.0 i bibliotekę pandas 1.4. Została napisana w przystępny sposób, a poszczególne zagadnienia bogato zilustrowano przykładami, studiami rzeczywistych prz...
Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III
(77.35 zł najniższa cena z 30 dni)71.40 zł
119.00 zł(-40%) -
Dzięki tej książce nauczysz się przekształcać suche dane liczbowe w pełną empatii narrację! Aby spełniły one swoje zadanie, ktoś musi przedstawić zawarte w nich informacje w postaci opowieści. W tej publikacji wyczerpująco i praktycznie opisano przebieg tego procesu. Jej lektura sprawi, że rozwin...
Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji
(20.90 zł najniższa cena z 30 dni)20.90 zł
67.00 zł(-69%) -
W złożonej rzeczywistości myślenie systemowe jest kluczowym narzędziem pozwalającym odnieść się do licznych wyzwań: gospodarczych, ekologicznych, politycznych czy społecznych. Tylko w ten sposób w codziennych wiadomościach można dostrzec przejawy trendów, a w trendach — przeja...(32.44 zł najniższa cena z 30 dni)
29.94 zł
49.90 zł(-40%)
O autorach ebooka
Joe Reis - jest „badaczem danych z odzysku” oraz inżynierem danych i architektem.
Matt Housley - jest konsultantem w dziedzinie inżynierii danych i specjalistą ds. chmury.
Kup polskie wydanie:
Inżynieria danych w praktyce. Kluczowe koncepcje i najlepsze technologie
- Autor:
- Joe Reis, Matt Housley
39,90 zł
119,00 zł
(59.50 zł najniższa cena z 30 dni)
Ebooka "Fundamentals of Data Engineering" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Fundamentals of Data Engineering" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Fundamentals of Data Engineering" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-10-981-0825-0, 9781098108250
- Data wydania ebooka:
- 2022-06-22 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 7.1MB
- Rozmiar pliku Mobi:
- 12.9MB
Spis treści ebooka
- Preface
- What This Book Isnt
- What This Book Is About
- Who Should Read This Book
- Prerequisites
- What Youll Learn and How It Will Improve Your Abilities
- Navigating This Book
- Conventions Used in This Book
- How to Contact Us
- Acknowledgments
- I. Foundation and Building Blocks
- 1. Data Engineering Described
- What Is Data Engineering?
- Data Engineering Defined
- The Data Engineering Lifecycle
- Evolution of the Data Engineer
- The early days: 1980 to 2000, from data warehousing to the web
- The early 2000s: The birth of contemporary data engineering
- The 2000s and 2010s: Big data engineering
- The 2020s: Engineering for the data lifecycle
- Data Engineering and Data Science
- What Is Data Engineering?
- Data Engineering Skills and Activities
- Data Maturity and the Data Engineer
- Stage 1: Starting with data
- Stage 2: Scaling with data
- Stage 3: Leading with data
- Data Maturity and the Data Engineer
- The Background and Skills of a Data Engineer
- Business Responsibilities
- Technical Responsibilities
- The Continuum of Data Engineering Roles, from A to B
- Data Engineers Inside an Organization
- Internal-Facing Versus External-Facing Data Engineers
- Data Engineers and Other Technical Roles
- Upstream stakeholders
- Data architects
- Software engineers
- DevOps engineers and site-reliability engineers
- Upstream stakeholders
- Downstream stakeholders
- Data scientists
- Data analysts
- Machine learning engineers and AI researchers
- Data Engineers and Business Leadership
- Data in the C-suite
- Chief executive officer
- Chief information officer
- Chief technology officer
- Chief data officer
- Chief analytics officer
- Chief algorithms officer
- Data in the C-suite
- Data engineers and project managers
- Data engineers and product managers
- Data engineers and other management roles
- Conclusion
- Additional Resources
- 2. The Data Engineering Lifecycle
- What Is the Data Engineering Lifecycle?
- The Data Lifecycle Versus the Data Engineering Lifecycle
- Generation: Source Systems
- Evaluating source systems: Key engineering considerations
- Storage
- Evaluating storage systems: Key engineering considerations
- Understanding data access frequency
- Selecting a storage system
- What Is the Data Engineering Lifecycle?
- Ingestion
- Key engineering considerations for the ingestion phase
- Batch versus streaming
- Key considerations for batch versus stream ingestion
- Push versus pull
- Transformation
- Key considerations for the transformation phase
- Serving Data
- Analytics
- Business intelligence
- Operational analytics
- Embedded analytics
- Analytics
- Machine learning
- Reverse ETL
- Major Undercurrents Across the Data Engineering Lifecycle
- Security
- Data Management
- Data governance
- Discoverability
- Metadata
- Data accountability
- Data quality
- Data governance
- Data modeling and design
- Data lineage
- Data integration and interoperability
- Data lifecycle management
- Ethics and privacy
- DataOps
- Automation
- Observability and monitoring
- Incident response
- DataOps summary
- Data Architecture
- Orchestration
- Software Engineering
- Core data processing code
- Development of open source frameworks
- Streaming
- Infrastructure as code
- Pipelines as code
- General-purpose problem solving
- Conclusion
- Additional Resources
- 3. Designing Good Data Architecture
- What Is Data Architecture?
- Enterprise Architecture Defined
- TOGAFs definition
- Gartners definition
- EABOKs definition
- Our definition
- Enterprise Architecture Defined
- Data Architecture Defined
- TOGAFs definition
- DAMAs definition
- Our definition
- What Is Data Architecture?
- Good Data Architecture
- Principles of Good Data Architecture
- Principle 1: Choose Common Components Wisely
- Principle 2: Plan for Failure
- Principle 3: Architect for Scalability
- Principle 4: Architecture Is Leadership
- Principle 5: Always Be Architecting
- Principle 6: Build Loosely Coupled Systems
- Principle 7: Make Reversible Decisions
- Principle 8: Prioritize Security
- Hardened-perimeter and zero-trust security models
- The shared responsibility model
- Data engineers as security engineers
- Principle 9: Embrace FinOps
- Major Architecture Concepts
- Domains and Services
- Distributed Systems, Scalability, and Designing for Failure
- Tight Versus Loose Coupling: Tiers, Monoliths, and Microservices
- Architecture tiers
- Single tier
- Multitier
- Architecture tiers
- Monoliths
- Microservices
- Considerations for data architecture
- User Access: Single Versus Multitenant
- Event-Driven Architecture
- Brownfield Versus Greenfield Projects
- Brownfield projects
- Greenfield projects
- Examples and Types of Data Architecture
- Data Warehouse
- The cloud data warehouse
- Data marts
- Data Warehouse
- Data Lake
- Convergence, Next-Generation Data Lakes, and the Data Platform
- Modern Data Stack
- Lambda Architecture
- Kappa Architecture
- The Dataflow Model and Unified Batch and Streaming
- Architecture for IoT
- Devices
- Interfacing with devices
- IoT gateway
- Ingestion
- Storage
- Serving
- Scratching the surface of the IoT
- Data Mesh
- Other Data Architecture Examples
- Whos Involved with Designing a Data Architecture?
- Conclusion
- Additional Resources
- 4. Choosing Technologies Across the Data Engineering Lifecycle
- Team Size and Capabilities
- Speed to Market
- Interoperability
- Cost Optimization and Business Value
- Total Cost of Ownership
- Total Opportunity Cost of Ownership
- FinOps
- Today Versus the Future: Immutable Versus Transitory Technologies
- Our Advice
- Location
- On Premises
- Cloud
- Hybrid Cloud
- Multicloud
- Decentralized: Blockchain and the Edge
- Our Advice
- Choose technologies for the present, but look toward the future
- Cloud Repatriation Arguments
- You are not Dropbox, nor are you Cloudflare
- Build Versus Buy
- Open Source Software
- Community-managed OSS
- Commercial OSS
- Open Source Software
- Proprietary Walled Gardens
- Independent offerings
- Cloud platform proprietary service offerings
- Our Advice
- Monolith Versus Modular
- Monolith
- Modularity
- The Distributed Monolith Pattern
- Our Advice
- Serverless Versus Servers
- Serverless
- Containers
- How to Evaluate Server Versus Serverless
- Our Advice
- Optimization, Performance, and the Benchmark Wars
- Big Data...for the 1990s
- Nonsensical Cost Comparisons
- Asymmetric Optimization
- Caveat Emptor
- Undercurrents and Their Impacts on Choosing Technologies
- Data Management
- DataOps
- Data Architecture
- Orchestration Example: Airflow
- Software Engineering
- Conclusion
- Additional Resources
- II. The Data Engineering Lifecycle in Depth
- 5. Data Generation in Source Systems
- Sources of Data: How Is Data Created?
- Source Systems: Main Ideas
- Files and Unstructured Data
- APIs
- Application Databases (OLTP Systems)
- ACID
- Atomic transactions
- OLTP and analytics
- Online Analytical Processing System
- Change Data Capture
- Logs
- Log encoding
- Log resolution
- Log latency: Batch or real time
- Database Logs
- CRUD
- Insert-Only
- Messages and Streams
- Types of Time
- Source System Practical Details
- Databases
- Major considerations for understanding database technologies
- Relational databases
- Nonrelational databases: NoSQL
- Key-value stores
- Document stores
- Wide-column
- Graph databases
- Search
- Time series
- Databases
- APIs
- REST
- GraphQL
- Webhooks
- RPC and gRPC
- Data Sharing
- Third-Party Data Sources
- Message Queues and Event-Streaming Platforms
- Message queues
- Message ordering and delivery
- Delivery frequency
- Scalability
- Message queues
- Event-streaming platforms
- Topics
- Stream partitions
- Fault tolerance and resilience
- Whom Youll Work With
- Undercurrents and Their Impact on Source Systems
- Security
- Data Management
- DataOps
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 6. Storage
- Raw Ingredients of Data Storage
- Magnetic Disk Drive
- Solid-State Drive
- Random Access Memory
- Networking and CPU
- Serialization
- Compression
- Caching
- Raw Ingredients of Data Storage
- Data Storage Systems
- Single Machine Versus Distributed Storage
- Eventual Versus Strong Consistency
- File Storage
- Local disk storage
- Network-attached storage
- Cloud filesystem services
- Block Storage
- Block storage applications
- RAID
- Storage area network
- Cloud virtualized block storage
- Local instance volumes
- Object Storage
- Object stores for data engineering applications
- Object lookup
- Object consistency and versioning
- Storage classes and tiers
- Object storebacked filesystems
- Cache and Memory-Based Storage Systems
- Example: Memcached and lightweight object caching
- Example: Redis, memory caching with optional persistence
- The Hadoop Distributed File System
- Hadoop is dead. Long live Hadoop!
- Streaming Storage
- Indexes, Partitioning, and Clustering
- The evolution from rows to columns
- From indexes to partitions and clustering
- Example: Snowflake micro-partitioning
- Data Engineering Storage Abstractions
- The Data Warehouse
- The Data Lake
- The Data Lakehouse
- Data Platforms
- Stream-to-Batch Storage Architecture
- Big Ideas and Trends in Storage
- Data Catalog
- Catalog application integration
- Automated scanning
- Data portal and social layer
- Data catalog use cases
- Data Catalog
- Data Sharing
- Schema
- Separation of Compute from Storage
- Colocation of compute and storage
- Separation of compute and storage
- Ephemerality and scalability
- Data durability and availability
- Hybrid separation and colocation
- Example: AWS EMR with S3 and HDFS
- Example: Apache Spark
- Example: Apache Druid
- Example: Hybrid object storage
- Zero-copy cloning
- Data Storage Lifecycle and Data Retention
- Hot, warm, and cold data
- Hot data
- Warm data
- Cold data
- Storage tier considerations
- Hot, warm, and cold data
- Data retention
- Value
- Time
- Compliance
- Cost
- Single-Tenant Versus Multitenant Storage
- Whom Youll Work With
- Undercurrents
- Security
- Data Management
- Data catalogs and metadata management
- Data versioning in object storage
- Privacy
- DataOps
- Systems monitoring
- Observing and monitoring data
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 7. Ingestion
- What Is Data Ingestion?
- Key Engineering Considerations for the Ingestion Phase
- Bounded Versus Unbounded Data
- Frequency
- Synchronous Versus Asynchronous Ingestion
- Serialization and Deserialization
- Throughput and Scalability
- Reliability and Durability
- Payload
- Kind
- Shape
- Size
- Schema and data types
- Detecting and handling upstream and downstream schema changes
- Schema registries
- Metadata
- Push Versus Pull Versus Poll Patterns
- Batch Ingestion Considerations
- Snapshot or Differential Extraction
- File-Based Export and Ingestion
- ETL Versus ELT
- Inserts, Updates, and Batch Size
- Data Migration
- Message and Stream Ingestion Considerations
- Schema Evolution
- Late-Arriving Data
- Ordering and Multiple Delivery
- Replay
- Time to Live
- Message Size
- Error Handling and Dead-Letter Queues
- Consumer Pull and Push
- Location
- Ways to Ingest Data
- Direct Database Connection
- Change Data Capture
- Batch-oriented CDC
- Continuous CDC
- CDC and database replication
- CDC considerations
- APIs
- Message Queues and Event-Streaming Platforms
- Managed Data Connectors
- Moving Data with Object Storage
- EDI
- Databases and File Export
- Practical Issues with Common File Formats
- Shell
- SSH
- SFTP and SCP
- Webhooks
- Web Interface
- Web Scraping
- Transfer Appliances for Data Migration
- Data Sharing
- Whom Youll Work With
- Upstream Stakeholders
- Downstream Stakeholders
- Undercurrents
- Security
- Data Management
- Schema changes
- Data ethics, privacy, and compliance
- DataOps
- Data-quality tests
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 8. Queries, Modeling, and Transformation
- Queries
- What Is a Query?
- Data definition language
- Data manipulation language
- Data control language
- Transaction control language
- What Is a Query?
- The Life of a Query
- The Query Optimizer
- Improving Query Performance
- Optimize your join strategy and schema
- Use the explain plan and understand your querys performance
- Avoid full table scans
- Know how your database handles commits
- Vacuum dead records
- Leverage cached query results
- Queries
- Queries on Streaming Data
- Basic query patterns on streams
- The fast-follower approach
- The Kappa architecture
- Basic query patterns on streams
- Windows, triggers, emitted statistics, and late-arriving data
- Session window
- Fixed-time windows
- Sliding windows
- Watermarks
- Combining streams with other data
- Conventional table joins
- Enrichment
- Stream-to-stream joining
- Data Modeling
- What Is a Data Model?
- Conceptual, Logical, and Physical Data Models
- Normalization
- Techniques for Modeling Batch Analytical Data
- Inmon
- Kimball
- Fact tables
- Dimension tables
- Star schema
- Data Vault
- Hubs
- Links
- Satellites
- Wide denormalized tables
- Modeling Streaming Data
- Transformations
- Batch Transformations
- Distributed joins
- Broadcast join
- Shuffle hash join
- Distributed joins
- ETL, ELT, and data pipelines
- SQL and code-based transformation tools
- SQL is declarative...but it can still build complex data workflows
- Example: When to avoid SQL for batch transformations in Spark
- Example: Optimizing Spark and other processing frameworks
- Batch Transformations
- Update patterns
- Truncate and reload
- Insert only
- Delete
- Upsert/merge
- Schema updates
- Data wrangling
- Example: Data transformation in Spark
- Business logic and derived data
- MapReduce
- After MapReduce
- Materialized Views, Federation, and Query Virtualization
- Views
- Materialized views
- Composable materialized views
- Federated queries
- Data virtualization
- Streaming Transformations and Processing
- Basics
- Transformations and queries are a continuum
- Streaming DAGs
- Micro-batch versus true streaming
- Whom Youll Work With
- Upstream Stakeholders
- Downstream Stakeholders
- Undercurrents
- Security
- Data Management
- DataOps
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 9. Serving Data for Analytics, Machine Learning, and Reverse ETL
- General Considerations for Serving Data
- Trust
- Whats the Use Case, and Whos the User?
- Data Products
- Self-Service or Not?
- Data Definitions and Logic
- Data Mesh
- General Considerations for Serving Data
- Analytics
- Business Analytics
- Operational Analytics
- Embedded Analytics
- Machine Learning
- What a Data Engineer Should Know About ML
- Ways to Serve Data for Analytics and ML
- File Exchange
- Databases
- Streaming Systems
- Query Federation
- Data Sharing
- Semantic and Metrics Layers
- Serving Data in Notebooks
- Reverse ETL
- Whom Youll Work With
- Undercurrents
- Security
- Data Management
- DataOps
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- III. Security, Privacy, and the Future of Data Engineering
- 10. Security and Privacy
- People
- The Power of Negative Thinking
- Always Be Paranoid
- People
- Processes
- Security Theater Versus Security Habit
- Active Security
- The Principle of Least Privilege
- Shared Responsibility in the Cloud
- Always Back Up Your Data
- An Example Security Policy
- Technology
- Patch and Update Systems
- Encryption
- Encryption at rest
- Encryption over the wire
- Logging, Monitoring, and Alerting
- Network Access
- Security for Low-Level Data Engineering
- Internal security research
- Conclusion
- Additional Resources
- 11. The Future of Data Engineering
- The Data Engineering Lifecycle Isnt Going Away
- The Decline of Complexity and the Rise of Easy-to-Use Data Tools
- The Cloud-Scale Data OS and Improved Interoperability
- Enterprisey Data Engineering
- Titles and Responsibilities Will Morph...
- Moving Beyond the Modern Data Stack, Toward the Live Data Stack
- The Live Data Stack
- Streaming Pipelines and Real-Time Analytical Databases
- The Fusion of Data with Applications
- The Tight Feedback Between Applications and ML
- Dark Matter Data and the Rise of...Spreadsheets?!
- Conclusion
- A. Serialization and Compression Technical Details
- Serialization Formats
- Row-Based Serialization
- CSV: The nonstandard standard
- XML
- JSON and JSONL
- Avro
- Row-Based Serialization
- Columnar Serialization
- Parquet
- ORC
- Apache Arrow or in-memory serialization
- Serialization Formats
- Hybrid Serialization
- Hudi
- Iceberg
- Database Storage Engines
- Compression: gzip, bzip2, Snappy, Etc.
- B. Cloud Networking
- Cloud Network Topology
- Data Egress Charges
- Availability Zones
- Regions
- GCP-Specific Networking and Multiregional Redundancy
- Direct Network Connections to the Clouds
- Cloud Network Topology
- CDNs
- The Future of Data Egress Fees
- Index
O'Reilly Media - inne książki
-
JavaScript gives web developers great power to create rich interactive browser experiences, and much of that power is provided by the browser itself. Modern web APIs enable web-based applications to come to life like never before, supporting actions that once required browser plug-ins. Some are s...(177.65 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
How will software development and operations have to change to meet the sustainability and green needs of the planet? And what does that imply for development organizations? In this eye-opening book, sustainable software advocates Anne Currie, Sarah Hsu, and Sara Bergman provide a unique overview...(160.65 zł najniższa cena z 30 dni)
169.14 zł
199.00 zł(-15%) -
OpenTelemetry is a revolution in observability data. Instead of running multiple uncoordinated pipelines, OpenTelemetry provides users with a single integrated stream of data, providing multiple sources of high-quality telemetry data: tracing, metrics, logs, RUM, eBPF, and more. This practical gu...(143.65 zł najniższa cena z 30 dni)
143.65 zł
169.00 zł(-15%) -
What will you learn from this book?If you're a software developer looking for a quick on-ramp to software architecture, this handy guide is a great place to start. From the authors of Fundamentals of Software Architecture, Head First Software Architecture teaches you how to think architecturally ...(237.15 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
If you use Linux in your day-to-day work, then Linux Pocket Guide is the perfect on-the-job reference. This thoroughly updated 20th anniversary edition explains more than 200 Linux commands, including new commands for file handling, package management, version control, file format conversions, an...(92.65 zł najniższa cena z 30 dni)
101.15 zł
119.00 zł(-15%) -
Interested in developing embedded systems? Since they don't tolerate inefficiency, these systems require a disciplined approach to programming. This easy-to-read guide helps you cultivate good development practices based on classic software design patterns and new patterns unique to embedded prog...(152.15 zł najniższa cena z 30 dni)
160.65 zł
189.00 zł(-15%) -
Gain the valuable skills and techniques you need to accelerate the delivery of machine learning solutions. With this practical guide, data scientists, ML engineers, and their leaders will learn how to bridge the gap between data science and Lean product delivery in a practical and simple way. Dav...(237.15 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
This practical book provides a detailed explanation of the zero trust security model. Zero trust is a security paradigm shift that eliminates the concept of traditional perimeter-based security and requires you to "always assume breach" and "never trust but always verify." The updated edition off...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Decentralized finance (DeFi) is a rapidly growing field in fintech, having grown from $700 million to $100 billion over the past three years alone. But the lack of reliable information makes this area both risky and murky. In this practical book, experienced securities attorney Alexandra Damsker ...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Whether you're a startup founder trying to disrupt an industry or an entrepreneur trying to provoke change from within, your biggest challenge is creating a product people actually want. Lean Analytics steers you in the right direction.This book shows you how to validate your initial idea, find t...(126.65 zł najniższa cena z 30 dni)
126.65 zł
149.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Fundamentals of Data Engineering Joe Reis, Matt Housley (1) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.
(0)
(1)
(0)
(0)
(0)
(0)