

- Ocena:
- 5.0/6 Opinie: 1
- Stron:
- 450
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Fundamentals of Data Engineering
Data engineering has grown rapidly in the past decade, leaving many software engineers, data scientists, and analysts looking for a comprehensive view of this practice. With this practical book, you'll learn how to plan and build systems to serve the needs of your organization and customers by evaluating the best technologies available through the framework of the data engineering lifecycle.
Authors Joe Reis and Matt Housley walk you through the data engineering lifecycle and show you how to stitch together a variety of cloud technologies to serve the needs of downstream data consumers. You'll understand how to apply the concepts of data generation, ingestion, orchestration, transformation, storage, and governance that are critical in any data environment regardless of the underlying technology.
This book will help you:
- Get a concise overview of the entire data engineering landscape
- Assess data engineering problems using an end-to-end framework of best practices
- Cut through marketing hype when choosing data technologies, architecture, and processes
- Use the data engineering lifecycle to design and build a robust architecture
- Incorporate data governance and security across the data engineering lifecycle
Wybrane bestsellery
-
W tej książce znajdziesz kompletny proces analityczny, od generowania pomysłów po przygotowanie zestawienia produktu i rynku. Dowiesz się z niej, jak zweryfikować swój pomysł, znaleźć odpowiednich klientów, zdefiniować ostateczną wersję produktu, zarobić na swojej działalności i ją wypromować. Zn...
Metoda Lean Analytics. Zbuduj sukces startupu w oparciu o analizę danych Metoda Lean Analytics. Zbuduj sukces startupu w oparciu o analizę danych
-
Dzięki tej książce nauczysz się przekształcać suche dane liczbowe w pełną empatii narrację! Aby spełniły one swoje zadanie, ktoś musi przedstawić zawarte w nich informacje w postaci opowieści. W tej publikacji wyczerpująco i praktycznie opisano przebieg tego procesu. Jej lektura sprawi, że rozwin...
Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji
(20.90 zł najniższa cena z 30 dni)20.90 zł
67.00 zł(-69%) -
To drugie, w pełni zaktualizowane wydanie znakomitego przewodnika, dzięki któremu bezproblemowo rozpoczniesz pracę z Power BI i w pełni wykorzystasz jego możliwości. Dowiesz się, jak pozyskiwać i oczyszczać dane z różnych źródeł, a także jak zaprojektować model danych, aby móc analizować relacje ...
Microsoft Power BI. Jak modelować i wizualizować dane oraz budować narracje cyfrowe. Wydanie II Microsoft Power BI. Jak modelować i wizualizować dane oraz budować narracje cyfrowe. Wydanie II
Devin Knight, Mitchell Pearson, Bradley Schacht, Erin Ostrowsky
(46.20 zł najniższa cena z 30 dni)50.05 zł
77.00 zł(-35%) -
W złożonej rzeczywistości myślenie systemowe jest kluczowym narzędziem pozwalającym odnieść się do licznych wyzwań: gospodarczych, ekologicznych, politycznych czy społecznych. Tylko w ten sposób w codziennych wiadomościach można dostrzec przejawy trendów, a w trendach — przeja...(29.94 zł najniższa cena z 30 dni)
32.44 zł
49.90 zł(-35%) -
Ta książka jest przewodnikiem dla każdego, kto musi przekazywać informacje, robiąc przy tym użytek z danych. Szczególnie wartościowa będzie dla analityków, studentów i naukowców, a także dla każdego, kto w swojej komunikacji odwołuje się do danych. Pokazano tu prostą i intuicyjną technikę przedst...
Storytelling danych. Poradnik wizualizacji danych dla profesjonalistów Storytelling danych. Poradnik wizualizacji danych dla profesjonalistów
(46.20 zł najniższa cena z 30 dni)50.05 zł
77.00 zł(-35%) -
BPMN pozwala na ciągłe analizowanie, monitorowanie i optymalizowanie procesów biznesowych. Jest narzędziem bardzo skutecznym, prawdziwym „świętym Graalem” współczesnego biznesu. Jednak nie jest on niestety tak przyjazny, jak mógłby oczekiwać początkujący użytkownik. Jego oryginalną sp...
Zrozumieć BPMN. Modelowanie procesów biznesowych. Wydanie 2 rozszerzone Zrozumieć BPMN. Modelowanie procesów biznesowych. Wydanie 2 rozszerzone
(29.40 zł najniższa cena z 30 dni)31.85 zł
49.00 zł(-35%) -
Dziennikarstwo danych przeżywa dziś prawdziwy rozkwit. Dzieje się tak dlatego, że nasze życie w dużej mierze przeniosło się do internetu, a internet to... dane. Megabajty, gigabajty, terabajty danych. Misją współczesnego dziennikarza jest przedstawiać je społeczeństwu rzetelnie, a równocześnie pi...(29.94 zł najniższa cena z 30 dni)
32.44 zł
49.90 zł(-35%) -
Metody statystyczne są kluczowym elementem data science, mimo to niewielu specjalistów data science posiada formalne wykształcenie statystyczne. Kursy i podręczniki o podstawach statystyki, rzadko kiedy omawiają temat z perspektywy data science. W drugim wydaniu tego popularnego podręcznika zosta...
Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II
(41.40 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
Posiadanie zbiorów danych to połowa sukcesu. Druga połowa to umiejętność ich skutecznej analizy i wyciągania wniosków! Dopiero na tej podstawie będziesz w stanie właściwie ocenić kondycję Twojej firmy oraz podjąć słuszne decyzje. Wiedza zawarta w tej książce może zadecydować o sukcesie biznesowym...
Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji
(47.40 zł najniższa cena z 30 dni)51.35 zł
79.00 zł(-35%) -
Microsoft Power BI jest doskonałym narzędziem do profesjonalnej analizy danych. Jeśli jednak chcesz uzyskać za jego pomocą naprawdę spektakularne efekty, musisz się biegle posługiwać językiem DAX (Data Analysis Expressions). Pozwala on na wykonywanie zaawansowanych obliczeń i zapytań dotyczących ...
DAX i Power BI w analizie danych. Tworzenie zaawansowanych i efektywnych analiz dla biznesu DAX i Power BI w analizie danych. Tworzenie zaawansowanych i efektywnych analiz dla biznesu
(57.85 zł najniższa cena z 30 dni)57.85 zł
89.00 zł(-35%)
O autorach ebooka
Joe Reis - jest „badaczem danych z odzysku” oraz inżynierem danych i architektem.
Matt Housley - jest konsultantem w dziedzinie inżynierii danych i specjalistą ds. chmury.
Ebooka przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video zobaczysz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP4 (pliki spakowane w ZIP)
Szczegóły ebooka
- ISBN Ebooka:
- 978-10-981-0825-0, 9781098108250
- Data wydania ebooka:
-
2022-06-22
Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 7.1MB
- Rozmiar pliku Mobi:
- 13.0MB
Spis treści ebooka
- Preface
- What This Book Isnt
- What This Book Is About
- Who Should Read This Book
- Prerequisites
- What Youll Learn and How It Will Improve Your Abilities
- Navigating This Book
- Conventions Used in This Book
- How to Contact Us
- Acknowledgments
- I. Foundation and Building Blocks
- 1. Data Engineering Described
- What Is Data Engineering?
- Data Engineering Defined
- The Data Engineering Lifecycle
- Evolution of the Data Engineer
- The early days: 1980 to 2000, from data warehousing to the web
- The early 2000s: The birth of contemporary data engineering
- The 2000s and 2010s: Big data engineering
- The 2020s: Engineering for the data lifecycle
- Data Engineering and Data Science
- What Is Data Engineering?
- Data Engineering Skills and Activities
- Data Maturity and the Data Engineer
- Stage 1: Starting with data
- Stage 2: Scaling with data
- Stage 3: Leading with data
- Data Maturity and the Data Engineer
- The Background and Skills of a Data Engineer
- Business Responsibilities
- Technical Responsibilities
- The Continuum of Data Engineering Roles, from A to B
- Data Engineers Inside an Organization
- Internal-Facing Versus External-Facing Data Engineers
- Data Engineers and Other Technical Roles
- Upstream stakeholders
- Data architects
- Software engineers
- DevOps engineers and site-reliability engineers
- Upstream stakeholders
- Downstream stakeholders
- Data scientists
- Data analysts
- Machine learning engineers and AI researchers
- Data Engineers and Business Leadership
- Data in the C-suite
- Chief executive officer
- Chief information officer
- Chief technology officer
- Chief data officer
- Chief analytics officer
- Chief algorithms officer
- Data in the C-suite
- Data engineers and project managers
- Data engineers and product managers
- Data engineers and other management roles
- Conclusion
- Additional Resources
- 2. The Data Engineering Lifecycle
- What Is the Data Engineering Lifecycle?
- The Data Lifecycle Versus the Data Engineering Lifecycle
- Generation: Source Systems
- Evaluating source systems: Key engineering considerations
- Storage
- Evaluating storage systems: Key engineering considerations
- Understanding data access frequency
- Selecting a storage system
- What Is the Data Engineering Lifecycle?
- Ingestion
- Key engineering considerations for the ingestion phase
- Batch versus streaming
- Key considerations for batch versus stream ingestion
- Push versus pull
- Transformation
- Key considerations for the transformation phase
- Serving Data
- Analytics
- Business intelligence
- Operational analytics
- Embedded analytics
- Analytics
- Machine learning
- Reverse ETL
- Major Undercurrents Across the Data Engineering Lifecycle
- Security
- Data Management
- Data governance
- Discoverability
- Metadata
- Data accountability
- Data quality
- Data governance
- Data modeling and design
- Data lineage
- Data integration and interoperability
- Data lifecycle management
- Ethics and privacy
- DataOps
- Automation
- Observability and monitoring
- Incident response
- DataOps summary
- Data Architecture
- Orchestration
- Software Engineering
- Core data processing code
- Development of open source frameworks
- Streaming
- Infrastructure as code
- Pipelines as code
- General-purpose problem solving
- Conclusion
- Additional Resources
- 3. Designing Good Data Architecture
- What Is Data Architecture?
- Enterprise Architecture Defined
- TOGAFs definition
- Gartners definition
- EABOKs definition
- Our definition
- Enterprise Architecture Defined
- Data Architecture Defined
- TOGAFs definition
- DAMAs definition
- Our definition
- What Is Data Architecture?
- Good Data Architecture
- Principles of Good Data Architecture
- Principle 1: Choose Common Components Wisely
- Principle 2: Plan for Failure
- Principle 3: Architect for Scalability
- Principle 4: Architecture Is Leadership
- Principle 5: Always Be Architecting
- Principle 6: Build Loosely Coupled Systems
- Principle 7: Make Reversible Decisions
- Principle 8: Prioritize Security
- Hardened-perimeter and zero-trust security models
- The shared responsibility model
- Data engineers as security engineers
- Principle 9: Embrace FinOps
- Major Architecture Concepts
- Domains and Services
- Distributed Systems, Scalability, and Designing for Failure
- Tight Versus Loose Coupling: Tiers, Monoliths, and Microservices
- Architecture tiers
- Single tier
- Multitier
- Architecture tiers
- Monoliths
- Microservices
- Considerations for data architecture
- User Access: Single Versus Multitenant
- Event-Driven Architecture
- Brownfield Versus Greenfield Projects
- Brownfield projects
- Greenfield projects
- Examples and Types of Data Architecture
- Data Warehouse
- The cloud data warehouse
- Data marts
- Data Warehouse
- Data Lake
- Convergence, Next-Generation Data Lakes, and the Data Platform
- Modern Data Stack
- Lambda Architecture
- Kappa Architecture
- The Dataflow Model and Unified Batch and Streaming
- Architecture for IoT
- Devices
- Interfacing with devices
- IoT gateway
- Ingestion
- Storage
- Serving
- Scratching the surface of the IoT
- Data Mesh
- Other Data Architecture Examples
- Whos Involved with Designing a Data Architecture?
- Conclusion
- Additional Resources
- 4. Choosing Technologies Across the Data Engineering Lifecycle
- Team Size and Capabilities
- Speed to Market
- Interoperability
- Cost Optimization and Business Value
- Total Cost of Ownership
- Total Opportunity Cost of Ownership
- FinOps
- Today Versus the Future: Immutable Versus Transitory Technologies
- Our Advice
- Location
- On Premises
- Cloud
- Hybrid Cloud
- Multicloud
- Decentralized: Blockchain and the Edge
- Our Advice
- Choose technologies for the present, but look toward the future
- Cloud Repatriation Arguments
- You are not Dropbox, nor are you Cloudflare
- Build Versus Buy
- Open Source Software
- Community-managed OSS
- Commercial OSS
- Open Source Software
- Proprietary Walled Gardens
- Independent offerings
- Cloud platform proprietary service offerings
- Our Advice
- Monolith Versus Modular
- Monolith
- Modularity
- The Distributed Monolith Pattern
- Our Advice
- Serverless Versus Servers
- Serverless
- Containers
- How to Evaluate Server Versus Serverless
- Our Advice
- Optimization, Performance, and the Benchmark Wars
- Big Data...for the 1990s
- Nonsensical Cost Comparisons
- Asymmetric Optimization
- Caveat Emptor
- Undercurrents and Their Impacts on Choosing Technologies
- Data Management
- DataOps
- Data Architecture
- Orchestration Example: Airflow
- Software Engineering
- Conclusion
- Additional Resources
- II. The Data Engineering Lifecycle in Depth
- 5. Data Generation in Source Systems
- Sources of Data: How Is Data Created?
- Source Systems: Main Ideas
- Files and Unstructured Data
- APIs
- Application Databases (OLTP Systems)
- ACID
- Atomic transactions
- OLTP and analytics
- Online Analytical Processing System
- Change Data Capture
- Logs
- Log encoding
- Log resolution
- Log latency: Batch or real time
- Database Logs
- CRUD
- Insert-Only
- Messages and Streams
- Types of Time
- Source System Practical Details
- Databases
- Major considerations for understanding database technologies
- Relational databases
- Nonrelational databases: NoSQL
- Key-value stores
- Document stores
- Wide-column
- Graph databases
- Search
- Time series
- Databases
- APIs
- REST
- GraphQL
- Webhooks
- RPC and gRPC
- Data Sharing
- Third-Party Data Sources
- Message Queues and Event-Streaming Platforms
- Message queues
- Message ordering and delivery
- Delivery frequency
- Scalability
- Message queues
- Event-streaming platforms
- Topics
- Stream partitions
- Fault tolerance and resilience
- Whom Youll Work With
- Undercurrents and Their Impact on Source Systems
- Security
- Data Management
- DataOps
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 6. Storage
- Raw Ingredients of Data Storage
- Magnetic Disk Drive
- Solid-State Drive
- Random Access Memory
- Networking and CPU
- Serialization
- Compression
- Caching
- Raw Ingredients of Data Storage
- Data Storage Systems
- Single Machine Versus Distributed Storage
- Eventual Versus Strong Consistency
- File Storage
- Local disk storage
- Network-attached storage
- Cloud filesystem services
- Block Storage
- Block storage applications
- RAID
- Storage area network
- Cloud virtualized block storage
- Local instance volumes
- Object Storage
- Object stores for data engineering applications
- Object lookup
- Object consistency and versioning
- Storage classes and tiers
- Object storebacked filesystems
- Cache and Memory-Based Storage Systems
- Example: Memcached and lightweight object caching
- Example: Redis, memory caching with optional persistence
- The Hadoop Distributed File System
- Hadoop is dead. Long live Hadoop!
- Streaming Storage
- Indexes, Partitioning, and Clustering
- The evolution from rows to columns
- From indexes to partitions and clustering
- Example: Snowflake micro-partitioning
- Data Engineering Storage Abstractions
- The Data Warehouse
- The Data Lake
- The Data Lakehouse
- Data Platforms
- Stream-to-Batch Storage Architecture
- Big Ideas and Trends in Storage
- Data Catalog
- Catalog application integration
- Automated scanning
- Data portal and social layer
- Data catalog use cases
- Data Catalog
- Data Sharing
- Schema
- Separation of Compute from Storage
- Colocation of compute and storage
- Separation of compute and storage
- Ephemerality and scalability
- Data durability and availability
- Hybrid separation and colocation
- Example: AWS EMR with S3 and HDFS
- Example: Apache Spark
- Example: Apache Druid
- Example: Hybrid object storage
- Zero-copy cloning
- Data Storage Lifecycle and Data Retention
- Hot, warm, and cold data
- Hot data
- Warm data
- Cold data
- Storage tier considerations
- Hot, warm, and cold data
- Data retention
- Value
- Time
- Compliance
- Cost
- Single-Tenant Versus Multitenant Storage
- Whom Youll Work With
- Undercurrents
- Security
- Data Management
- Data catalogs and metadata management
- Data versioning in object storage
- Privacy
- DataOps
- Systems monitoring
- Observing and monitoring data
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 7. Ingestion
- What Is Data Ingestion?
- Key Engineering Considerations for the Ingestion Phase
- Bounded Versus Unbounded Data
- Frequency
- Synchronous Versus Asynchronous Ingestion
- Serialization and Deserialization
- Throughput and Scalability
- Reliability and Durability
- Payload
- Kind
- Shape
- Size
- Schema and data types
- Detecting and handling upstream and downstream schema changes
- Schema registries
- Metadata
- Push Versus Pull Versus Poll Patterns
- Batch Ingestion Considerations
- Snapshot or Differential Extraction
- File-Based Export and Ingestion
- ETL Versus ELT
- Inserts, Updates, and Batch Size
- Data Migration
- Message and Stream Ingestion Considerations
- Schema Evolution
- Late-Arriving Data
- Ordering and Multiple Delivery
- Replay
- Time to Live
- Message Size
- Error Handling and Dead-Letter Queues
- Consumer Pull and Push
- Location
- Ways to Ingest Data
- Direct Database Connection
- Change Data Capture
- Batch-oriented CDC
- Continuous CDC
- CDC and database replication
- CDC considerations
- APIs
- Message Queues and Event-Streaming Platforms
- Managed Data Connectors
- Moving Data with Object Storage
- EDI
- Databases and File Export
- Practical Issues with Common File Formats
- Shell
- SSH
- SFTP and SCP
- Webhooks
- Web Interface
- Web Scraping
- Transfer Appliances for Data Migration
- Data Sharing
- Whom Youll Work With
- Upstream Stakeholders
- Downstream Stakeholders
- Undercurrents
- Security
- Data Management
- Schema changes
- Data ethics, privacy, and compliance
- DataOps
- Data-quality tests
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 8. Queries, Modeling, and Transformation
- Queries
- What Is a Query?
- Data definition language
- Data manipulation language
- Data control language
- Transaction control language
- What Is a Query?
- The Life of a Query
- The Query Optimizer
- Improving Query Performance
- Optimize your join strategy and schema
- Use the explain plan and understand your querys performance
- Avoid full table scans
- Know how your database handles commits
- Vacuum dead records
- Leverage cached query results
- Queries
- Queries on Streaming Data
- Basic query patterns on streams
- The fast-follower approach
- The Kappa architecture
- Basic query patterns on streams
- Windows, triggers, emitted statistics, and late-arriving data
- Session window
- Fixed-time windows
- Sliding windows
- Watermarks
- Combining streams with other data
- Conventional table joins
- Enrichment
- Stream-to-stream joining
- Data Modeling
- What Is a Data Model?
- Conceptual, Logical, and Physical Data Models
- Normalization
- Techniques for Modeling Batch Analytical Data
- Inmon
- Kimball
- Fact tables
- Dimension tables
- Star schema
- Data Vault
- Hubs
- Links
- Satellites
- Wide denormalized tables
- Modeling Streaming Data
- Transformations
- Batch Transformations
- Distributed joins
- Broadcast join
- Shuffle hash join
- Distributed joins
- ETL, ELT, and data pipelines
- SQL and code-based transformation tools
- SQL is declarative...but it can still build complex data workflows
- Example: When to avoid SQL for batch transformations in Spark
- Example: Optimizing Spark and other processing frameworks
- Batch Transformations
- Update patterns
- Truncate and reload
- Insert only
- Delete
- Upsert/merge
- Schema updates
- Data wrangling
- Example: Data transformation in Spark
- Business logic and derived data
- MapReduce
- After MapReduce
- Materialized Views, Federation, and Query Virtualization
- Views
- Materialized views
- Composable materialized views
- Federated queries
- Data virtualization
- Streaming Transformations and Processing
- Basics
- Transformations and queries are a continuum
- Streaming DAGs
- Micro-batch versus true streaming
- Whom Youll Work With
- Upstream Stakeholders
- Downstream Stakeholders
- Undercurrents
- Security
- Data Management
- DataOps
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- 9. Serving Data for Analytics, Machine Learning, and Reverse ETL
- General Considerations for Serving Data
- Trust
- Whats the Use Case, and Whos the User?
- Data Products
- Self-Service or Not?
- Data Definitions and Logic
- Data Mesh
- General Considerations for Serving Data
- Analytics
- Business Analytics
- Operational Analytics
- Embedded Analytics
- Machine Learning
- What a Data Engineer Should Know About ML
- Ways to Serve Data for Analytics and ML
- File Exchange
- Databases
- Streaming Systems
- Query Federation
- Data Sharing
- Semantic and Metrics Layers
- Serving Data in Notebooks
- Reverse ETL
- Whom Youll Work With
- Undercurrents
- Security
- Data Management
- DataOps
- Data Architecture
- Orchestration
- Software Engineering
- Conclusion
- Additional Resources
- III. Security, Privacy, and the Future of Data Engineering
- 10. Security and Privacy
- People
- The Power of Negative Thinking
- Always Be Paranoid
- People
- Processes
- Security Theater Versus Security Habit
- Active Security
- The Principle of Least Privilege
- Shared Responsibility in the Cloud
- Always Back Up Your Data
- An Example Security Policy
- Technology
- Patch and Update Systems
- Encryption
- Encryption at rest
- Encryption over the wire
- Logging, Monitoring, and Alerting
- Network Access
- Security for Low-Level Data Engineering
- Internal security research
- Conclusion
- Additional Resources
- 11. The Future of Data Engineering
- The Data Engineering Lifecycle Isnt Going Away
- The Decline of Complexity and the Rise of Easy-to-Use Data Tools
- The Cloud-Scale Data OS and Improved Interoperability
- Enterprisey Data Engineering
- Titles and Responsibilities Will Morph...
- Moving Beyond the Modern Data Stack, Toward the Live Data Stack
- The Live Data Stack
- Streaming Pipelines and Real-Time Analytical Databases
- The Fusion of Data with Applications
- The Tight Feedback Between Applications and ML
- Dark Matter Data and the Rise of...Spreadsheets?!
- Conclusion
- A. Serialization and Compression Technical Details
- Serialization Formats
- Row-Based Serialization
- CSV: The nonstandard standard
- XML
- JSON and JSONL
- Avro
- Row-Based Serialization
- Columnar Serialization
- Parquet
- ORC
- Apache Arrow or in-memory serialization
- Serialization Formats
- Hybrid Serialization
- Hudi
- Iceberg
- Database Storage Engines
- Compression: gzip, bzip2, Snappy, Etc.
- B. Cloud Networking
- Cloud Network Topology
- Data Egress Charges
- Availability Zones
- Regions
- GCP-Specific Networking and Multiregional Redundancy
- Direct Network Connections to the Clouds
- Cloud Network Topology
- CDNs
- The Future of Data Egress Fees
- Index
O'Reilly Media - inne książki
-
Combing the web is simple, but how do you search for data at work? It's difficult and time-consuming, and can sometimes seem impossible. This book introduces a practical solution: the data catalog. Data analysts, data scientists, and data engineers will learn how to create true data discovery in ...(220.15 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł(-15%) -
This updated edition of the Nutshell guide not only helps experienced Java programmers get the most out of versions through Java 17, it also serves as a learning path for new developers. Chock-full of examples that demonstrate how to take complete advantage of modern Java APIs and development bes...(220.15 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł(-15%) -
Get started with Ray, the open source distributed computing framework that simplifies the process of scaling compute-intensive Python workloads. With this practical book, Python programmers, data engineers, and data scientists will learn how to leverage Ray locally and spin up compute clusters. Y...(220.15 zł najniższa cena z 30 dni)
228.65 zł
269.00 zł(-15%) -
Remove your doubts about AI and explore how this technology can be future-proofed using blockchain's smart contracts and tamper-evident ledgers. With this practical book, system architects, software engineers, and systems solution specialists will learn how enterprise blockchain provides permanen...(262.65 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%) -
FinOps brings financial accountability to the variable spend model of cloud. Used by the majority of global enterprises, this management practice has grown from a fringe activity to the de facto discipline managing cloud spend. In this book, authors J.R. Storment and Mike Fuller outline the proce...(262.65 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%) -
Edge AI is transforming the way computers interact with the real world, allowing IoT devices to make decisions using the 99% of sensor data that was previously discarded due to cost, bandwidth, or power limitations. With techniques like embedded machine learning, developers can capture human intu...(262.65 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%) -
Why is it difficult for so many companies to get digital identity right? If you're still wrestling with even simple identity problems like modern website authentication, this practical book has the answers you need. Author Phil Windley provides conceptual frameworks to help you make sense of all ...(186.15 zł najniższa cena z 30 dni)
194.65 zł
229.00 zł(-15%) -
Python was recently ranked as today's most popular programming language on the TIOBE index, thanks to its broad applicability to design and prototyping to testing, deployment, and maintenance. With this updated fourth edition, you'll learn how to get the most out of Python, whether you're a profe...(296.65 zł najniższa cena z 30 dni)
305.15 zł
359.00 zł(-15%) -
With the accelerating speed of business and the increasing dependence on technology, companies today are significantly changing the way they build in-house business solutions. Many now use low-code and no code technologies to help them deal with specific issues, but that's just the beginning. Wit...
Building Solutions with the Microsoft Power Platform Building Solutions with the Microsoft Power Platform
(262.65 zł najniższa cena z 30 dni)271.15 zł
319.00 zł(-15%) -
Companies are scrambling to integrate AI into their systems and operations. But to build truly successful solutions, you need a firm grasp of the underlying mathematics. This accessible guide walks you through the math necessary to thrive in the AI field such as focusing on real-world application...(262.65 zł najniższa cena z 30 dni)
271.15 zł
319.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
W przypadku usługi "Druk na żądanie" termin dostarczenia przesyłki może obejmować także czas potrzebny na dodruk (do 10 dni roboczych)
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.


Oceny i opinie klientów: Fundamentals of Data Engineering Joe Reis, Matt Housley (1)
Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.
(0)
(1)
(0)
(0)
(0)
(0)
Gbolahan,
Data dodania: 2022-07-12 Ocena: 5 Opinia niepotwierdzona zakupem