Data Quality Fundamentals
- Autorzy:
- Barr Moses, Lior Gavish, Molly Vorwerck
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 312
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Data Quality Fundamentals
Do your product dashboards look funky? Are your quarterly reports stale? Is the data set you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to these questions, this book is for you.
Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck, from the data observability company Monte Carlo, explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.
- Build more trustworthy and reliable data pipelines
- Write scripts to make data checks and identify broken pipelines with data observability
- Learn how to set and maintain data SLAs, SLIs, and SLOs
- Develop and lead data quality initiatives at your company
- Learn how to treat data services and systems with the diligence of production software
- Automate data lineage graphs across your data ecosystem
- Build anomaly detectors for your critical data assets
Wybrane bestsellery
-
Tę książkę docenią wszyscy zainteresowani eksploracją danych i uczeniem maszynowym, którzy chcieliby pewnie poruszać się w świecie nauki o danych. Pokazano tu, w jaki sposób Excel pozwala zobrazować proces ich eksplorowania i jak działają poszczególne techniki w tym zakresie. Przejrzyście wyjaśni...
Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku
(40.20 zł najniższa cena z 30 dni)43.55 zł
67.00 zł(-35%) -
Power Apps to platforma stworzona przez Microsoft, umożliwiająca łatwe projektowanie, tworzenie i dostosowywanie aplikacji bez konieczności posiadania głębokiej wiedzy programistycznej. Z użyciem Power Apps można budować niestandardowe aplikacje, które efektywnie wspierają i automatyzują różne pr...
Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code
(39.90 zł najniższa cena z 30 dni)129.35 zł
199.00 zł(-35%) -
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zesp...
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(40.20 zł najniższa cena z 30 dni)53.60 zł
67.00 zł(-20%) -
W dzisiejszej praktyce biznesowej duże znaczenie mają dane i ich analiza. W analizie zastosowanie znajduje wiele modeli statystycznych, implementowanych w różnych programach komputerowych. Na przykład Excel ma specjalny dodatek, nazwany po prostu Analiza Danych. Bardzo popularne narzędzie stanowi...
R i pakiet shiny. Kurs video. Interaktywne aplikacje w analizie danych R i pakiet shiny. Kurs video. Interaktywne aplikacje w analizie danych
(39.90 zł najniższa cena z 30 dni)74.50 zł
149.00 zł(-50%) -
Oto drugie, zaktualizowane i uzupełnione wydanie przewodnika po bibliotece Pandas. Dzięki tej przystępnej książce nauczysz się w pełni korzystać z możliwości oferowanych przez bibliotekę, nawet jeśli dopiero zaczynasz przygodę z analizą danych w Pythonie. Naukę rozpoczniesz z użyciem rzeczywisteg...
Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II
(65.40 zł najniższa cena z 30 dni)70.85 zł
109.00 zł(-35%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(41.40 zł najniższa cena z 30 dni)44.85 zł
69.00 zł(-35%) -
Ta książka jest trzecim, starannie zaktualizowanym wydaniem wyczerpującego przewodnika po narzędziach analitycznych Pythona. Uwzględnia Pythona 3.0 i bibliotekę pandas 1.4. Została napisana w przystępny sposób, a poszczególne zagadnienia bogato zilustrowano przykładami, studiami rzeczywistych prz...
Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III
(71.40 zł najniższa cena z 30 dni)77.35 zł
119.00 zł(-35%) -
Dzięki tej książce nauczysz się przekształcać suche dane liczbowe w pełną empatii narrację! Aby spełniły one swoje zadanie, ktoś musi przedstawić zawarte w nich informacje w postaci opowieści. W tej publikacji wyczerpująco i praktycznie opisano przebieg tego procesu. Jej lektura sprawi, że rozwin...
Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji
(20.90 zł najniższa cena z 30 dni)20.90 zł
67.00 zł(-69%) -
W złożonej rzeczywistości myślenie systemowe jest kluczowym narzędziem pozwalającym odnieść się do licznych wyzwań: gospodarczych, ekologicznych, politycznych czy społecznych. Tylko w ten sposób w codziennych wiadomościach można dostrzec przejawy trendów, a w trendach — przeja...(29.94 zł najniższa cena z 30 dni)
32.43 zł
49.90 zł(-35%) -
Ten poradnik pomoże Ci uniknąć często spotykanych problemów z wizualizacją danych. Zawiera wskazówki, dzięki którym szybko zaczniesz tworzyć świetnie wyglądające i bogate w treść wykresy. Nauczysz się bezbłędnego dobierania najlepszego w danej sytuacji sposobu wizualizacji, poznasz reguły stosowa...
Podstawy wizualizacji danych. Zasady tworzenia atrakcyjnych wykresów Podstawy wizualizacji danych. Zasady tworzenia atrakcyjnych wykresów
(47.40 zł najniższa cena z 30 dni)51.35 zł
79.00 zł(-35%)
Ebooka "Data Quality Fundamentals" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Data Quality Fundamentals" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Data Quality Fundamentals" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-10-981-1199-1, 9781098111991
- Data wydania ebooka:
- 2022-09-01 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 8.4MB
- Rozmiar pliku Mobi:
- 14.9MB
Spis treści ebooka
- Preface
- Conventions Used in This Book
- Using Code Examples
- OReilly Online Learning
- How to Contact Us
- Acknowledgments
- 1. Why Data Quality Deserves AttentionNow
- What Is Data Quality?
- Framing the Current Moment
- Understanding the Rise of Data Downtime
- Migration to the cloud
- More data sources
- Increasingly complex data pipelines
- More specialized data teams
- Decentralized data teams
- Understanding the Rise of Data Downtime
- Other Industry Trends Contributing to the Current Moment
- Data mesh
- Streaming data
- Rise of the data lakehouse
- Summary
- 2. Assembling the Building Blocks of a Reliable Data System
- Understanding the Difference Between Operational and Analytical Data
- What Makes Them Different?
- Data Warehouses Versus Data Lakes
- Data Warehouses: Table Types at the Schema Level
- Data Lakes: Manipulations at the File Level
- What About the Data Lakehouse?
- Syncing Data Between Warehouses and Lakes
- Collecting Data Quality Metrics
- What Are Data Quality Metrics?
- How to Pull Data Quality Metrics
- Scalability
- Monitoring across other parts of your stack
- Example: Pulling data quality metrics from Snowflake
- Step 1: Map your inventory
- Step 2: Monitor for data freshness and volume
- Step 3: Build your query history
- Step 4: Health check
- Using Query Logs to Understand Data Quality in the Warehouse
- Using Query Logs to Understand Data Quality in the Lake
- Designing a Data Catalog
- Building a Data Catalog
- Summary
- 3. Collecting, Cleaning, Transforming, and Testing Data
- Collecting Data
- Application Log Data
- API Responses
- Sensor Data
- Collecting Data
- Cleaning Data
- Batch Versus Stream Processing
- Data Quality for Stream Processing
- AWS Kinesis
- Apache Kafka
- Normalizing Data
- Handling Heterogeneous Data Sources
- Warehouse data versus lake data: heterogeneity edition
- Handling Heterogeneous Data Sources
- Schema Checking and Type Coercion
- Syntactic Versus Semantic Ambiguity in Data
- Managing Operational Data Transformations Across AWS Kinesis and Apache Kafka
- AWS Kinesis
- Apache Kafka
- Running Analytical Data Transformations
- Ensuring Data Quality During ETL
- Ensuring Data Quality During Transformation
- Alerting and Testing
- dbt Unit Testing
- Great Expectations Unit Testing
- Deequ Unit Testing
- Managing Data Quality with Apache Airflow
- Scheduler SLAs
- Installing Circuit Breakers with Apache Airflow
- SQL Check Operators
- Summary
- 4. Monitoring and Anomaly Detection for Your Data Pipelines
- Knowing Your Known Unknowns and Unknown Unknowns
- Building an Anomaly Detection Algorithm
- Monitoring for Freshness
- Understanding Distribution
- Building Monitors for Schema and Lineage
- Anomaly Detection for Schema Changes and Lineage
- Visualizing Lineage
- Investigating a Data Anomaly
- Scaling Anomaly Detection with Python and Machine Learning
- Improving Data Monitoring Alerting with Machine Learning
- Accounting for False Positives and False Negatives
- Improving Precision and Recall
- Detecting Freshness Incidents with Data Monitoring
- F-Scores
- Does Model Accuracy Matter?
- Beyond the Surface: Other Useful Anomaly Detection Approaches
- Designing Data Quality Monitors for Warehouses Versus Lakes
- Summary
- 5. Architecting for Data Reliability
- Measuring and Maintaining High Data Reliability at Ingestion
- Measuring and Maintaining Data Quality in the Pipeline
- Understanding Data Quality Downstream
- Building Your Data Platform
- Data Ingestion
- Data Storage and Processing
- Data Transformation and Modeling
- Business Intelligence and Analytics
- Data Discovery and Governance
- Developing Trust in Your Data
- Data Observability
- Measuring the ROI on Data Quality
- Calculating the cost of data downtime
- Updating your data downtime cost to reflect external factors
- How to Set SLAs, SLOs, and SLIs for Your Data
- Step 1: Defining data reliability with SLAs
- Step 2: Measuring data reliability with SLIs
- Step 3: Tracking data reliability with SLOs
- Case Study: Blinkist
- Summary
- 6. Fixing Data Quality Issues at Scale
- Fixing Quality Issues in Software Development
- Data Incident Management
- Incident Detection
- Response
- Root Cause Analysis
- Step 1: Look at your lineage
- Step 2: Look at the code
- Step 3: Look at your data
- Step 4: Look at your operational environment
- Step 5: Leverage your peers
- Resolution
- Blameless Postmortem
- Incident Response and Mitigation
- Establishing a Routine of Incident Management
- Step 1: Route notifications to the appropriate team members
- Step 2: Assess the severity of the incident
- Step 3: Communicate status updates as often as possible
- Step 4: Define and align on data SLOs and SLIs to prevent future incidents and downtime
- Establishing a Routine of Incident Management
- Why Data Incident Commanders Matter
- Case Study: Data Incident Management at PagerDuty
- The DataOps Landscape at PagerDuty
- Data Challenges at PagerDuty
- Using DevOps Best Practices to Scale Data Incident Management
- Best practice #1: Ensure your incident management covers the entire data life cycle
- Best practice #2: Incident management should include noise suppression
- Best practice #3: Group data assets and incidents to intelligently route alerts
- Summary
- 7. Building End-to-End Lineage
- Building End-to-End Field-Level Lineage for Modern Data Systems
- Basic Lineage Requirements
- Data Lineage Design
- Parsing the Data
- Building the User Interface
- Building End-to-End Field-Level Lineage for Modern Data Systems
- Case Study: Architecting for Data Reliability at Fox
- Exercise Controlled Freedom When Dealing with Stakeholders
- Invest in a Decentralized Data Team
- Avoid Shiny New Toys in Favor of Problem-Solving Tech
- To Make Analytics Self-Serve, Invest in Data Trust
- Summary
- 8. Democratizing Data Quality
- Treating Your Data Like a Product
- Perspectives on Treating Data Like a Product
- Convoy Case Study: Data as a Service or Output
- Uber Case Study: The Rise of the Data Product Manager
- Applying the Data-as-a-Product Approach
- Gain stakeholder alignment earlyand often
- Apply a product management mindset
- Invest in self-serve tooling
- Prioritize data quality and reliability
- Find the right team structure for your data organization
- Building Trust in Your Data Platform
- Align Your Products Goals with the Goals of the Business
- Gain Feedback and Buy-in from the Right Stakeholders
- Prioritize Long-Term Growth and Sustainability Versus Short-Term Gains
- Sign Off on Baseline Metrics for Your Data and How You Measure Them
- Know When to Build Versus Buy
- Assigning Ownership for Data Quality
- Chief Data Officer
- Business Intelligence Analyst
- Analytics Engineer
- Data Scientist
- Data Governance Lead
- Data Engineer
- Data Product Manager
- Who Is Responsible for Data Reliability?
- Creating Accountability for Data Quality
- Balancing Data Accessibility with Trust
- Certifying Your Data
- Seven Steps to Implementing a Data Certification Program
- Step 1: Build out your data observability capabilities
- Step 2: Determine your data owners
- Step 3: Understand what good data looks like
- Step 4: Set clear SLAs, SLOs, and SLIs for your most important data sets
- Step 5: Develop your communication and incident management processes
- Step 6: Determine a mechanism to tag the data as certified
- Step 7: Train your data team and downstream consumers
- Case Study: Toasts Journey to Finding the Right Structure for Their Data Team
- In the Beginning: When a Small Team Struggles to Meet Data Demands
- Supporting Hypergrowth as a Decentralized Data Operation
- Regrouping, Recentralizing, and Refocusing on Data Trust
- Considerations When Scaling Your Data Team
- Hire data generalists, not specialistswith one exception
- Prioritize building a diverse data team from day one
- Overcommunication is key to change management
- Dont overvalue a single source of truth
- Increasing Data Literacy
- Prioritizing Data Governance and Compliance
- Prioritizing a Data Catalog
- In-house
- Third-party
- Open source
- Prioritizing a Data Catalog
- Beyond Catalogs: Enforcing Data Governance
- Building a Data Quality Strategy
- Make Leadership Accountable for Data Quality
- Set Data Quality KPIs
- Spearhead a Data Governance Program
- Automate Your Lineage and Data Governance Tooling
- Create a Communications Plan
- Summary
- 9. Data Quality in the Real World: Conversations and Case Studies
- Building a Data Mesh for Greater Data Quality
- Domain-Oriented Data Owners and Pipelines
- Self-Serve Functionality
- Interoperability and Standardization of Communications
- Building a Data Mesh for Greater Data Quality
- Why Implement a Data Mesh?
- To Mesh or Not to Mesh? That Is the Question
- Calculating Your Data Mesh Score
- A Conversation with Zhamak Dehghani: The Role of Data Quality Across the Data Mesh
- Can You Build a Data Mesh from a Single Solution?
- Is Data Mesh Another Word for Data Virtualization?
- Does Each Data Product Team Manage Their Own Separate Data Stores?
- Is a Self-Serve Data Platform the Same Thing as a Decentralized Data Mesh?
- Is the Data Mesh Right for All Data Teams?
- Does One Person on Your Team Own the Data Mesh?
- Does the Data Mesh Cause Friction Between Data Engineers and Data Analysts?
- Case Study: Kolibri Games Data Stack Journey
- First Data Needs
- Pursuing Performance Marketing
- 2018: Professionalize and Centralize
- Getting Data-Oriented
- Getting Data-Driven
- Building a Data Mesh
- Five Key Takeaways from a Five-Year Data Evolution
- Making Metadata Work for the Business
- Unlocking the Value of Metadata with Data Discovery
- Data Warehouse and Lake Considerations
- Data Catalogs Can Drown in a Data Lakeor Even a Data Mesh
- Moving from Traditional Data Catalogs to Modern Data Discovery
- Deciding When to Get Started with Data Quality at Your Company
- Youve Recently Migrated to the Cloud
- Your Data Stack Is Scaling with More Data Sources, More Tables, and More Complexity
- Your Data Team Is Growing
- Your Team Is Spending at Least 30% of Their Time Firefighting Data Quality Issues
- Your Team Has More Data Consumers Than They Did One Year Ago
- Your Company Is Moving to a Self-Service Analytics Model
- Data Is a Key Part of the Customer Value Proposition
- Data Quality Starts with Trust
- Summary
- 10. Pioneering the Future of Reliable Data Systems
- Be Proactive, Not Reactive
- Predictions for the Future of Data Quality and Reliability
- Data Warehouses and Lakes Will Merge
- Emergence of New Roles on the Data Team
- Rise of Automation
- More Distributed Environments and the Rise of Data Domains
- So Where Do We Go from Here?
- Index
O'Reilly Media - inne książki
-
JavaScript gives web developers great power to create rich interactive browser experiences, and much of that power is provided by the browser itself. Modern web APIs enable web-based applications to come to life like never before, supporting actions that once required browser plug-ins. Some are s...(186.15 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
How will software development and operations have to change to meet the sustainability and green needs of the planet? And what does that imply for development organizations? In this eye-opening book, sustainable software advocates Anne Currie, Sarah Hsu, and Sara Bergman provide a unique overview...(160.65 zł najniższa cena z 30 dni)
177.65 zł
209.00 zł(-15%) -
OpenTelemetry is a revolution in observability data. Instead of running multiple uncoordinated pipelines, OpenTelemetry provides users with a single integrated stream of data, providing multiple sources of high-quality telemetry data: tracing, metrics, logs, RUM, eBPF, and more. This practical gu...(143.65 zł najniższa cena z 30 dni)
152.15 zł
179.00 zł(-15%) -
What will you learn from this book?If you're a software developer looking for a quick on-ramp to software architecture, this handy guide is a great place to start. From the authors of Fundamentals of Software Architecture, Head First Software Architecture teaches you how to think architecturally ...(245.65 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
If you use Linux in your day-to-day work, then Linux Pocket Guide is the perfect on-the-job reference. This thoroughly updated 20th anniversary edition explains more than 200 Linux commands, including new commands for file handling, package management, version control, file format conversions, an...(92.65 zł najniższa cena z 30 dni)
101.15 zł
119.00 zł(-15%) -
Interested in developing embedded systems? Since they don't tolerate inefficiency, these systems require a disciplined approach to programming. This easy-to-read guide helps you cultivate good development practices based on classic software design patterns and new patterns unique to embedded prog...(152.15 zł najniższa cena z 30 dni)
160.65 zł
189.00 zł(-15%) -
Gain the valuable skills and techniques you need to accelerate the delivery of machine learning solutions. With this practical guide, data scientists, ML engineers, and their leaders will learn how to bridge the gap between data science and Lean product delivery in a practical and simple way. Dav...(245.65 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
This practical book provides a detailed explanation of the zero trust security model. Zero trust is a security paradigm shift that eliminates the concept of traditional perimeter-based security and requires you to "always assume breach" and "never trust but always verify." The updated edition off...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Decentralized finance (DeFi) is a rapidly growing field in fintech, having grown from $700 million to $100 billion over the past three years alone. But the lack of reliable information makes this area both risky and murky. In this practical book, experienced securities attorney Alexandra Damsker ...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Whether you're a startup founder trying to disrupt an industry or an entrepreneur trying to provoke change from within, your biggest challenge is creating a product people actually want. Lean Analytics steers you in the right direction.This book shows you how to validate your initial idea, find t...(126.65 zł najniższa cena z 30 dni)
126.65 zł
149.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Data Quality Fundamentals Barr Moses, Lior Gavish, Molly Vorwerck (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.