Practical Synthetic Data Generation. Balancing Privacy and the Broad Availability of Data
- Autorzy:
- Khaled El Emam, Lucy Mosquera, Richard Hoptroff
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 166
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Practical Synthetic Data Generation. Balancing Privacy and the Broad Availability of Data
Building and testing machine learning models requires access to large and diverse data. But where can you find usable datasets without running into privacy issues? This practical book introduces techniques for generating synthetic data—fake data generated from real data—so you can perform secondary analysis to do research, understand customer behaviors, develop new products, or generate new revenue.
Data scientists will learn how synthetic data generation provides a way to make such data broadly available for secondary purposes while addressing many privacy concerns. Analysts will learn the principles and steps for generating synthetic data from real datasets. And business leaders will see how synthetic data can help accelerate time to a product or solution.
This book describes:
- Steps for generating synthetic data using multivariate normal distributions
- Methods for distribution fitting covering different goodness-of-fit metrics
- How to replicate the simple structure of original data
- An approach for modeling data structure to consider complex relationships
- Multiple approaches and metrics you can use to assess data utility
- How analysis performed on real data can be replicated with synthetic data
- Privacy implications of synthetic data and methods to assess identity disclosure
Wybrane bestsellery
-
Updated as of August 2014, this practical book will demonstrate proven methods for anonymizing health data to help your organization share meaningful datasets, without exposing patient identity. Leading experts Khaled El Emam and Luk Arbuckle walk you through a risk-based methodology, using case ...
Anonymizing Health Data. Case Studies and Methods to Get You Started Anonymizing Health Data. Case Studies and Methods to Get You Started
(92.65 zł najniższa cena z 30 dni)92.65 zł
109.00 zł(-15%) -
How can you use data in a way that protects individual privacy but still provides useful and meaningful analytics? With this practical book, data architects and engineers will learn how to establish and integrate secure, repeatable anonymization processes into their data flows and analytics in a ...
Building an Anonymization Pipeline. Creating Safe Data Building an Anonymization Pipeline. Creating Safe Data
(152.15 zł najniższa cena z 30 dni)152.15 zł
179.00 zł(-15%) -
Jeśli myślisz o karierze analityka danych albo starasz się o pracę na stanowisku, na którym będziesz analizować dane, ten kurs jest specjalnie dla Ciebie. Opanujesz dzięki niemu między innymi niezbędne podstawy języka SQL i dowiesz się, jak funkcjonuje i do czego może Ci posłużyć system zarządzan...
SQL dla analityków danych. Kurs video. Kompleksowe przygotowanie do pracy SQL dla analityków danych. Kurs video. Kompleksowe przygotowanie do pracy
(74.70 zł najniższa cena z 30 dni)136.95 zł
249.00 zł(-45%) -
Szybka i efektywna analiza danych – temu właśnie służą tabele i wykresy przestawne dostępne w arkuszu kalkulacyjnym Excel. Nieistotne dla osób, które z Excela korzystają doraźnie – po to, by ułatwić sobie zapisywanie pewnych informacji i prezentowanie ich w bardziej profesjonalny spos...
Tabele i wykresy przestawne dla każdego. Kurs video. Analiza danych w Excelu Tabele i wykresy przestawne dla każdego. Kurs video. Analiza danych w Excelu
(89.54 zł najniższa cena z 30 dni)99.49 zł
199.00 zł(-50%) -
Jeśli w swojej pracy masz lub miewasz do czynienia z danymi, z pewnością orientujesz się, że do tego celu stworzono dotąd całkiem sporo narzędzi. Nic dziwnego – przy tej liczbie danych, z jaką spotykamy się w dzisiejszym cyfrowym świecie, zdolność do ich sprawnego analizowania i wyciągania ...
Grafana. Kurs video. Monitorowanie, analiza i wizualizacja danych w czasie rzeczywistym Grafana. Kurs video. Monitorowanie, analiza i wizualizacja danych w czasie rzeczywistym
(39.90 zł najniższa cena z 30 dni)62.55 zł
139.00 zł(-55%) -
Tę książkę docenią wszyscy zainteresowani eksploracją danych i uczeniem maszynowym, którzy chcieliby pewnie poruszać się w świecie nauki o danych. Pokazano tu, w jaki sposób Excel pozwala zobrazować proces ich eksplorowania i jak działają poszczególne techniki w tym zakresie. Przejrzyście wyjaśni...
Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku
(40.20 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
Power Apps to platforma stworzona przez Microsoft, umożliwiająca łatwe projektowanie, tworzenie i dostosowywanie aplikacji bez konieczności posiadania głębokiej wiedzy programistycznej. Z użyciem Power Apps można budować niestandardowe aplikacje, które efektywnie wspierają i automatyzują różne pr...
Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code
(69.65 zł najniższa cena z 30 dni)109.45 zł
199.00 zł(-45%) -
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zesp...
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(40.20 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(41.40 zł najniższa cena z 30 dni)41.40 zł
69.00 zł(-40%) -
Dzięki tej książce nauczysz się przekształcać suche dane liczbowe w pełną empatii narrację! Aby spełniły one swoje zadanie, ktoś musi przedstawić zawarte w nich informacje w postaci opowieści. W tej publikacji wyczerpująco i praktycznie opisano przebieg tego procesu. Jej lektura sprawi, że rozwin...
Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji
(20.90 zł najniższa cena z 30 dni)20.90 zł
67.00 zł(-69%)
Ebooka "Practical Synthetic Data Generation. Balancing Privacy and the Broad Availability of Data" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Practical Synthetic Data Generation. Balancing Privacy and the Broad Availability of Data" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Practical Synthetic Data Generation. Balancing Privacy and the Broad Availability of Data" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-14-920-7269-0, 9781492072690
- Data wydania ebooka:
- 2020-05-19 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 8.3MB
- Rozmiar pliku Mobi:
- 18.9MB
Spis treści ebooka
- Preface
- Conventions Used in This Book
- OReilly Online Learning
- How to Contact Us
- Acknowledgments
- 1. Introducing Synthetic Data Generation
- Defining Synthetic Data
- Synthesis from Real Data
- Synthesis Without Real Data
- Synthesis and Utility
- Defining Synthetic Data
- The Benefits of Synthetic Data
- Efficient Access to Data
- Enabling Better Analytics
- Synthetic Data as a Proxy
- Learning to Trust Synthetic Data
- Synthetic Data Case Studies
- Manufacturing and Distribution
- Healthcare
- Data for cancer research
- Evaluating innovative digital health technologies
- Financial Services
- Synthetic data benchmarks
- Software testing
- Transportation
- Microsimulation models
- Data synthesis for autonomous vehicles
- Summary
- 2. Implementing Data Synthesis
- When to Synthesize
- Identifiability Spectrum
- Trade-Offs in Selecting PETs to Enable Data Access
- Decision Criteria
- PETs Considered
- Decision Framework
- Examples of Applying the Decision Framework
- Data Synthesis Projects
- Data Synthesis Steps
- Data Preparation
- The Data Synthesis Pipeline
- Synthesis Program Management
- Summary
- 3. Getting Started: Distribution Fitting
- Framing Data
- How Data Is Distributed
- Fitting Distributions to Real Data
- Generating Synthetic Data from a Distribution
- Measuring How Well Synthetic Data Fits a Distribution
- The Overfitting Dilemma
- A Little Light Weeding
- Summary
- 4. Evaluating Synthetic Data Utility
- Synthetic Data Utility Framework: Replication of Analysis
- Synthetic Data Utility Framework: Utility Metrics
- Comparing Univariate Distributions
- Comparing Bivariate Statistics
- Comparing Multivariate Prediction Models
- Distinguishability
- Summary
- 5. Methods for Synthesizing Data
- Generating Synthetic Data from Theory
- Sampling from a Multivariate Normal Distribution
- Inducing Correlations with Specified Marginal Distributions
- Copulas with Known Marginal Distributions
- Generating Synthetic Data from Theory
- Generating Realistic Synthetic Data
- Fitting Real Data to Known Distributions
- Using Machine Learning to Fit the Distributions
- Hybrid Synthetic Data
- Machine Learning Methods
- Deep Learning Methods
- Synthesizing Sequences
- Summary
- 6. Identity Disclosure in Synthetic Data
- Types of Disclosure
- Identity Disclosure
- Learning Something New
- Attribute Disclosure
- Inferential Disclosure
- Meaningful Identity Disclosure
- Defining Information Gain
- Bringing It All Together
- Unique Matches
- Types of Disclosure
- How Privacy Law Impacts the Creation and Use of Synthetic Data
- Issues Under the GDPR
- Is the use of the original (real) dataset to generate and/or evaluate a synthetic dataset restricted or regulated under the GDPR?
- Is sharing the original dataset with a third-party service provider to generate the synthetic dataset restricted or regulated under the GDPR?
- Does the GDPR regulate or otherwise affect (if at all) the resulting synthetic dataset?
- Issues Under the GDPR
- Issues Under the CCPA
- Is the use of the original (real) dataset to generate and/or evaluate a synthetic dataset restricted or regulated under the CCPA?
- Is sharing the original dataset with a third-party service provider to generate the synthetic dataset restricted or regulated under the CCPA?
- Does the CCPA regulate or otherwise affect (if at all) the resulting synthetic dataset?
- Issues Under HIPAA
- Is the use of the original (real) dataset to generate and/or evaluate a synthetic dataset restricted or regulated under HIPAA?
- Is sharing the original dataset with a third-party service provider to generate the synthetic dataset restricted or regulated under HIPAA?
- Does HIPAA regulate or otherwise affect (if at all) the resulting synthetic dataset?
- Article 29 Working Party Opinion
- Singling out
- Linkability
- Inference
- Closing comments on the Article 29 opinion
- Summary
- 7. Practical Data Synthesis
- Managing Data Complexity
- For Every Pre-Processing Step There Is a Post-Processing Step
- Field Types
- The Need for Rules
- Not All Fields Have to Be Synthesized
- Synthesizing Dates
- Synthesizing Geography
- Lookup Fields and Tables
- Missing Data and Other Data Characteristics
- Partial Synthesis
- Managing Data Complexity
- Organizing Data Synthesis
- Computing Capacity
- A Toolbox of Techniques
- Synthesizing Cohorts Versus Full Datasets
- Continuous Data Feeds
- Privacy Assurance as Certification
- Performing Validation Studies to Get Buy-In
- Motivated Intruder Tests
- Who Owns Synthetic Data?
- Conclusions
- Index
O'Reilly Media - inne książki
-
Python is an excellent way to get started in programming, and this clear, concise guide walks you through Python a step at a time—beginning with basic programming concepts before moving on to functions, data structures, and object-oriented design. This revised third edition reflects the gro...(143.65 zł najniższa cena z 30 dni)
152.15 zł
179.00 zł(-15%) -
Developers with the ability to operate, troubleshoot, and monitor applications in Kubernetes are in high demand today. To meet this need, the Cloud Native Computing Foundation created a certification exam to establish a developer's credibility and value in the job market for work in a Kubernetes ...
Certified Kubernetes Application Developer (CKAD) Study Guide. 2nd Edition Certified Kubernetes Application Developer (CKAD) Study Guide. 2nd Edition
(177.65 zł najniższa cena z 30 dni)186.15 zł
219.00 zł(-15%) -
The surging predictive analytics market is expected to grow from $10.5 billion today to $28 billion by 2026. With the rise in automation across industries, the increase in data-driven decision-making, and the proliferation of IoT devices, predictive analytics has become an operational necessity i...(194.65 zł najniższa cena z 30 dni)
203.15 zł
239.00 zł(-15%) -
How do some organizations maintain 24-7 internet-scale operations? How can organizations integrate security while continuously deploying new features? How do organizations increase security within their DevOps processes?This practical guide helps you answer those questions and more. Author Steve ...(160.65 zł najniższa cena z 30 dni)
169.14 zł
199.00 zł(-15%) -
Many organizations today analyze and share large, sensitive datasets about individuals. Whether these datasets cover healthcare details, financial records, or exam scores, it's become more difficult for organizations to protect an individual's information through deidentification, anonymization, ...(228.65 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
Large language models (LLMs) and diffusion models such as ChatGPT and Stable Diffusion have unprecedented potential. Because they have been trained on all the public text and images on the internet, they can make useful contributions to a wide variety of tasks. And with the barrier to entry great...(228.65 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
Filled with tips, tricks, and techniques, this easy-to-use book is the perfect resource for intermediate to advanced users of Excel. You'll find complete recipes for more than a dozen topics covering formulas, PivotTables, charts, Power Query, and more. Each recipe poses a particular problem and ...(194.65 zł najniższa cena z 30 dni)
203.15 zł
239.00 zł(-15%) -
Traditional data architecture patterns are severely limited. To use these patterns, you have to ETL data into each tool—a cost-prohibitive process for making warehouse features available to all of your data. The lack of flexibility with these patterns requires you to lock into a set of prio...(211.65 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
In today's data-driven world, understanding statistical models is crucial for effective analysis and decision making. Whether you're a beginner or an experienced user, this book equips you with the foundational knowledge to grasp and implement statistical models within Tableau. Gain the confidenc...(177.65 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
If you haven't modernized your data cleaning and reporting processes in Microsoft Excel, you're missing out on big productivity gains. And if you're looking to conduct rigorous data analysis, more can be done in Excel than you think. This practical book serves as an introduction to the modern Exc...(177.65 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Practical Synthetic Data Generation. Balancing Privacy and the Broad Availability of Data Khaled El Emam, Lucy Mosquera, Richard Hoptroff (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.