Doing Data Science. Straight Talk from the Frontline
- Autorzy:
- Cathy O'Neil, Rachel Schutt
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 408
- Dostępne formaty:
-
ePubMobi
Opis ebooka: Doing Data Science. Straight Talk from the Frontline
Now that people are aware that data can make the difference in an election or a business model, data science as an occupation is gaining ground. But how can you get started working in a wide-ranging, interdisciplinary field that’s so clouded in hype? This insightful book, based on Columbia University’s Introduction to Data Science class, tells you what you need to know.
In many of these chapter-long lectures, data scientists from companies such as Google, Microsoft, and eBay share new algorithms, methods, and models by presenting case studies and the code they use. If you’re familiar with linear algebra, probability, and statistics, and have programming experience, this book is an ideal introduction to data science.
Topics include:
- Statistical inference, exploratory data analysis, and the data science process
- Algorithms
- Spam filters, Naive Bayes, and data wrangling
- Logistic regression
- Financial modeling
- Recommendation engines and causality
- Data visualization
- Social networks and data journalism
- Data engineering, MapReduce, Pregel, and Hadoop
Doing Data Science is collaboration between course instructor Rachel Schutt, Senior VP of Data Science at News Corp, and data science consultant Cathy O’Neil, a senior data scientist at Johnson Research Labs, who attended and blogged about the course.
Wybrane bestsellery
-
Unikalne wprowadzenie do nauki o danych! W dzisiejszych czasach najcenniejszym dobrem jest informacja. Ogromne ilości danych są przechowywane w przepastnych bazach danych, a kluczem do sukcesu jest ich umiejętna analiza i wyciąganie wniosków. To dynamicznie rozwijająca się dziedzina wiedzy...(27.45 zł najniższa cena z 30 dni)
19.90 zł
54.90 zł(-64%) -
"Data is here, it's growing, and it's powerful." Author Cathy O'Neil argues that the right approach to data is skeptical, not cynical––it understands that, while powerful, data science tools often fail. Data is nuanced, and "a really excellent skeptic puts the term 'science' into 'dat...
-
Tę książkę docenią wszyscy zainteresowani eksploracją danych i uczeniem maszynowym, którzy chcieliby pewnie poruszać się w świecie nauki o danych. Pokazano tu, w jaki sposób Excel pozwala zobrazować proces ich eksplorowania i jak działają poszczególne techniki w tym zakresie. Przejrzyście wyjaśni...
Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku Eksploracja danych za pomocą Excela. Metody uczenia maszynowego krok po kroku
(43.55 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
Power Apps to platforma stworzona przez Microsoft, umożliwiająca łatwe projektowanie, tworzenie i dostosowywanie aplikacji bez konieczności posiadania głębokiej wiedzy programistycznej. Z użyciem Power Apps można budować niestandardowe aplikacje, które efektywnie wspierają i automatyzują różne pr...
Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code Power Apps. Kurs video. Tworzenie biznesowych aplikacji no-code
(69.65 zł najniższa cena z 30 dni)39.90 zł
199.00 zł(-80%) -
Oto zwięzłe i równocześnie praktyczne kompendium, w którym znajdziesz 20 praktyk udanego planowania, analizy, specyfikacji, walidacji i zarządzania wymaganiami. Praktyki te są odpowiednie dla projektów zarządzanych zarówno w tradycyjny, jak i zwinny sposób, niezależnie od branży. Sprawią, że zesp...
Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej Specyfikacja wymagań oprogramowania. Kluczowe praktyki analizy biznesowej
(43.55 zł najniższa cena z 30 dni)40.20 zł
67.00 zł(-40%) -
Oto drugie, zaktualizowane i uzupełnione wydanie przewodnika po bibliotece Pandas. Dzięki tej przystępnej książce nauczysz się w pełni korzystać z możliwości oferowanych przez bibliotekę, nawet jeśli dopiero zaczynasz przygodę z analizą danych w Pythonie. Naukę rozpoczniesz z użyciem rzeczywisteg...
Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II
(70.85 zł najniższa cena z 30 dni)65.40 zł
109.00 zł(-40%) -
Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć ...
Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
(44.85 zł najniższa cena z 30 dni)41.40 zł
69.00 zł(-40%) -
Ta książka jest trzecim, starannie zaktualizowanym wydaniem wyczerpującego przewodnika po narzędziach analitycznych Pythona. Uwzględnia Pythona 3.0 i bibliotekę pandas 1.4. Została napisana w przystępny sposób, a poszczególne zagadnienia bogato zilustrowano przykładami, studiami rzeczywistych prz...
Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III Python w analizie danych. Przetwarzanie danych za pomocą pakietów pandas i NumPy oraz środowiska Jupyter. Wydanie III
(77.35 zł najniższa cena z 30 dni)71.40 zł
119.00 zł(-40%) -
Dzięki tej książce nauczysz się przekształcać suche dane liczbowe w pełną empatii narrację! Aby spełniły one swoje zadanie, ktoś musi przedstawić zawarte w nich informacje w postaci opowieści. W tej publikacji wyczerpująco i praktycznie opisano przebieg tego procesu. Jej lektura sprawi, że rozwin...
Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji Opowieści ukryte w danych. Wyjaśnij dane i wywołaj działania za pomocą narracji
(20.90 zł najniższa cena z 30 dni)20.90 zł
67.00 zł(-69%) -
W złożonej rzeczywistości myślenie systemowe jest kluczowym narzędziem pozwalającym odnieść się do licznych wyzwań: gospodarczych, ekologicznych, politycznych czy społecznych. Tylko w ten sposób w codziennych wiadomościach można dostrzec przejawy trendów, a w trendach — przeja...(32.44 zł najniższa cena z 30 dni)
29.94 zł
49.90 zł(-40%)
Kup polskie wydanie:
Badanie danych. Raport z pierwszej linii działań
- Autor:
- Rachel Schutt, Cathy O'Neil
19,90 zł
54,90 zł
(27.45 zł najniższa cena z 30 dni)
Ebooka "Doing Data Science. Straight Talk from the Frontline" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Doing Data Science. Straight Talk from the Frontline" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Doing Data Science. Straight Talk from the Frontline" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-14-493-6389-5, 9781449363895
- Data wydania ebooka:
- 2013-10-09 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 21.1MB
- Rozmiar pliku Mobi:
- 43.8MB
Spis treści ebooka
- Doing Data Science
- Dedication
- Preface
- Motivation
- Origins of the Class
- Origins of the Book
- What to Expect from This Book
- How This Book Is Organized
- How to Read This Book
- How Code Is Used in This Book
- Who This Book Is For
- Prerequisites
- Supplemental Reading
- About the Contributors
- Conventions Used in This Book
- Using Code Examples
- Safari Books Online
- How to Contact Us
- Acknowledgments
- 1. Introduction: What Is Data Science?
- Big Data and Data Science Hype
- Getting Past the Hype
- Why Now?
- Datafication
- The Current Landscape (with a Little History)
- Data Science Jobs
- A Data Science Profile
- Thought Experiment: Meta-Definition
- OK, So What Is a Data Scientist, Really?
- In Academia
- In Industry
- 2. Statistical Inference, Exploratory Data Analysis, and the Data Science Process
- Statistical Thinking in the Age of Big Data
- Statistical Inference
- Populations and Samples
- Populations and Samples of Big Data
- Big Data Can Mean Big Assumptions
- Can N=ALL?
- Data is not objective
- Modeling
- What is a model?
- Statistical modeling
- But how do you build a model?
- Probability distributions
- Fitting a model
- Overfitting
- Statistical Thinking in the Age of Big Data
- Exploratory Data Analysis
- Philosophy of Exploratory Data Analysis
- Exercise: EDA
- Sample code
- The Data Science Process
- A Data Scientists Role in This Process
- Thought Experiment: How Would You Simulate Chaos?
- Case Study: RealDirect
- How Does RealDirect Make Money?
- Exercise: RealDirect Data Strategy
- Sample R code
- 3. Algorithms
- Machine Learning Algorithms
- Three Basic Algorithms
- Linear Regression
- Start by writing something down
- Fitting the model
- Extending beyond least squares
- Adding in modeling assumptions about the errors
- Adding other predictors
- Transformations
- Review
- Exercise
- Linear Regression
- k-Nearest Neighbors (k-NN)
- Example with credit scores
- Similarity or distance metrics
- Training and test sets
- Pick an evaluation metric
- Putting it all together
- Choosing k
- What are the modeling assumptions?
- k-means
- 2D version
- Exercise: Basic Machine Learning Algorithms
- Solutions
- Sample R code: Linear regression on the housing dataset
- Sample R code: K-NN on the housing dataset
- Solutions
- Summing It All Up
- Thought Experiment: Automated Statistician
- 4. Spam Filters, Naive Bayes, and Wrangling
- Thought Experiment: Learning by Example
- Why Wont Linear Regression Work for Filtering Spam?
- How About k-nearest Neighbors?
- Thought Experiment: Learning by Example
- Naive Bayes
- Bayes Law
- A Spam Filter for Individual Words
- A Spam Filter That Combines Words: Naive Bayes
- Fancy It Up: Laplace Smoothing
- Comparing Naive Bayes to k-NN
- Sample Code in bash
- Scraping the Web: APIs and Other Tools
- Jakes Exercise: Naive Bayes for Article Classification
- Sample R Code for Dealing with the NYT API
- 5. Logistic Regression
- Thought Experiments
- Classifiers
- Runtime
- You
- Interpretability
- Scalability
- M6D Logistic Regression Case Study
- Click Models
- The Underlying Math
- Estimating and
- Newtons Method
- Stochastic Gradient Descent
- Implementation
- Evaluation
- Media 6 Degrees Exercise
- Sample R Code
- 6. Time Stamps and Financial Modeling
- Kyle Teague and GetGlue
- Timestamps
- Exploratory Data Analysis (EDA)
- Metrics and New Variables or Features
- Whats Next?
- Cathy ONeil
- Thought Experiment
- Financial Modeling
- In-Sample, Out-of-Sample, and Causality
- Preparing Financial Data
- Log Returns
- Example: The S&P Index
- Working out a Volatility Measurement
- Exponential Downweighting
- The Financial Modeling Feedback Loop
- Why Regression?
- Adding Priors
- A Baby Model
- Exercise: GetGlue and Timestamped Event Data
- Exercise: Financial Data
- 7. Extracting Meaning from Data
- William Cukierski
- Background: Data Science Competitions
- Background: Crowdsourcing
- William Cukierski
- The Kaggle Model
- A Single Contestant
- Their Customers
- Thought Experiment: What Are the Ethical Implications of a Robo-Grader?
- Feature Selection
- Example: User Retention
- Filters
- Wrappers
- Selecting an algorithm
- Selection criterion
- In practice
- Embedded Methods: Decision Trees
- Entropy
- The Decision Tree Algorithm
- Handling Continuous Variables in Decision Trees
- Random Forests
- User Retention: Interpretability Versus Predictive Power
- David Huffaker: Googles Hybrid Approach to Social Research
- Moving from Descriptive to Predictive
- Social at Google
- Privacy
- Thought Experiment: What Is the Best Way to Decrease Concern and Increase Understanding and Control?
- 8. Recommendation Engines: Building a User-Facing Data Product at Scale
- A Real-World Recommendation Engine
- Nearest Neighbor Algorithm Review
- Some Problems with Nearest Neighbors
- Beyond Nearest Neighbor: Machine Learning Classification
- The Dimensionality Problem
- Singular Value Decomposition (SVD)
- Important Properties of SVD
- Principal Component Analysis (PCA)
- Theorem: The resulting latent features will be uncorrelated
- Alternating Least Squares
- Theorem with no proof: The preceding algorithm will converge if your prior is large enough
- A Real-World Recommendation Engine
- Fix V and Update U
- Last Thoughts on These Algorithms
- Thought Experiment: Filter Bubbles
- Exercise: Build Your Own Recommendation System
- Sample Code in Python
- 9. Data Visualization and Fraud Detection
- Data Visualization History
- Gabriel Tarde
- Marks Thought Experiment
- Data Visualization History
- What Is Data Science, Redux?
- Processing
- Franco Moretti
- A Sample of Data Visualization Projects
- Marks Data Visualization Projects
- New York Times Lobby: Moveable Type
- Project Cascade: Lives on a Screen
- Cronkite Plaza
- eBay Transactions and Books
- Public Theater Shakespeare Machine
- Goals of These Exhibits
- Data Science and Risk
- About Square
- The Risk Challenge
- Detecting suspicious activity using machine learning
- The Trouble with Performance Estimation
- Defining the error metric
- Defining the labels
- Challenges in features and learning
- Model Building Tips
- Code readability and reusability
- Get a pair!
- Productionizing machine learning models
- Data Visualization at Square
- Ians Thought Experiment
- Data Visualization for the Rest of Us
- Data Visualization Exercise
- 10. Social Networks and Data Journalism
- Social Network Analysis at Morning Analytics
- Case-Attribute Data versus Social Network Data
- Social Network Analysis at Morning Analytics
- Social Network Analysis
- Terminology from Social Networks
- Centrality Measures
- The Industry of Centrality Measures
- Thought Experiment
- Morningside Analytics
- How Visualizations Help Us Find Schools of Fish
- More Background on Social Network Analysis from a Statistical Point of View
- Representations of Networks and Eigenvalue Centrality
- A First Example of Random Graphs: The Erdos-Renyi Model
- A Second Example of Random Graphs: The Exponential Random Graph Model
- Inference for ERGMs
- Further examples of random graphs: latent space models, small-world networks
- Data Journalism
- A Bit of History on Data Journalism
- Writing Technical Journalism: Advice from an Expert
- 11. Causality
- Correlation Doesnt Imply Causation
- Asking Causal Questions
- Confounders: A Dating Example
- Correlation Doesnt Imply Causation
- OK Cupids Attempt
- The Gold Standard: Randomized Clinical Trials
- A/B Tests
- Second Best: Observational Studies
- Simpsons Paradox
- The Rubin Causal Model
- Visualizing Causality
- Definition: The Causal Effect
- Three Pieces of Advice
- 12. Epidemiology
- Madigans Background
- Thought Experiment
- Modern Academic Statistics
- Medical Literature and Observational Studies
- Stratification Does Not Solve the Confounder Problem
- What Do People Do About Confounding Things in Practice?
- Is There a Better Way?
- Research Experiment (Observational Medical Outcomes Partnership)
- Closing Thought Experiment
- 13. Lessons Learned from Data Competitions: Data Leakage and Model Evaluation
- Claudias Data Scientist Profile
- The Life of a Chief Data Scientist
- On Being a Female Data Scientist
- Claudias Data Scientist Profile
- Data Mining Competitions
- How to Be a Good Modeler
- Data Leakage
- Market Predictions
- Amazon Case Study: Big Spenders
- A Jewelry Sampling Problem
- IBM Customer Targeting
- Breast Cancer Detection
- Pneumonia Prediction
- How to Avoid Leakage
- Evaluating Models
- Accuracy: Meh
- Probabilities Matter, Not 0s and 1s
- Choosing an Algorithm
- A Final Example
- Parting Thoughts
- 14. Data Engineering: MapReduce, Pregel, and Hadoop
- About David Crawshaw
- Thought Experiment
- MapReduce
- Word Frequency Problem
- Enter MapReduce
- Other Examples of MapReduce
- What Cant MapReduce Do?
- Pregel
- About Josh Wills
- Thought Experiment
- On Being a Data Scientist
- Data Abundance Versus Data Scarcity
- Designing Models
- Mind the gap
- Economic Interlude: Hadoop
- A Brief Introduction to Hadoop
- Cloudera
- Back to Josh: Workflow
- So How to Get Started with Hadoop?
- 15. The Students Speak
- Process Thinking
- Naive No Longer
- Helping Hands
- Your Mileage May Vary
- Bridging Tunnels
- Some of Our Work
- 16. Next-Generation Data Scientists, Hubris, and Ethics
- What Just Happened?
- What Is Data Science (Again)?
- What Are Next-Gen Data Scientists?
- Being Problem Solvers
- Cultivating Soft Skills
- Being Question Askers
- Being an Ethical Data Scientist
- Career Advice
- Index
- About the Authors
- Colophon
- Copyright
O'Reilly Media - inne książki
-
JavaScript gives web developers great power to create rich interactive browser experiences, and much of that power is provided by the browser itself. Modern web APIs enable web-based applications to come to life like never before, supporting actions that once required browser plug-ins. Some are s...(177.65 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
How will software development and operations have to change to meet the sustainability and green needs of the planet? And what does that imply for development organizations? In this eye-opening book, sustainable software advocates Anne Currie, Sarah Hsu, and Sara Bergman provide a unique overview...(160.65 zł najniższa cena z 30 dni)
169.14 zł
199.00 zł(-15%) -
OpenTelemetry is a revolution in observability data. Instead of running multiple uncoordinated pipelines, OpenTelemetry provides users with a single integrated stream of data, providing multiple sources of high-quality telemetry data: tracing, metrics, logs, RUM, eBPF, and more. This practical gu...(143.65 zł najniższa cena z 30 dni)
143.65 zł
169.00 zł(-15%) -
Interested in developing embedded systems? Since they don't tolerate inefficiency, these systems require a disciplined approach to programming. This easy-to-read guide helps you cultivate good development practices based on classic software design patterns and new patterns unique to embedded prog...(152.15 zł najniższa cena z 30 dni)
160.65 zł
189.00 zł(-15%) -
If you use Linux in your day-to-day work, then Linux Pocket Guide is the perfect on-the-job reference. This thoroughly updated 20th anniversary edition explains more than 200 Linux commands, including new commands for file handling, package management, version control, file format conversions, an...(92.65 zł najniższa cena z 30 dni)
92.65 zł
109.00 zł(-15%) -
Gain the valuable skills and techniques you need to accelerate the delivery of machine learning solutions. With this practical guide, data scientists, ML engineers, and their leaders will learn how to bridge the gap between data science and Lean product delivery in a practical and simple way. Dav...(237.15 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
This practical book provides a detailed explanation of the zero trust security model. Zero trust is a security paradigm shift that eliminates the concept of traditional perimeter-based security and requires you to "always assume breach" and "never trust but always verify." The updated edition off...(203.15 zł najniższa cena z 30 dni)
203.15 zł
239.00 zł(-15%) -
Decentralized finance (DeFi) is a rapidly growing field in fintech, having grown from $700 million to $100 billion over the past three years alone. But the lack of reliable information makes this area both risky and murky. In this practical book, experienced securities attorney Alexandra Damsker ...(194.65 zł najniższa cena z 30 dni)
203.15 zł
239.00 zł(-15%) -
Whether you're a startup founder trying to disrupt an industry or an entrepreneur trying to provoke change from within, your biggest challenge is creating a product people actually want. Lean Analytics steers you in the right direction.This book shows you how to validate your initial idea, find t...(126.65 zł najniższa cena z 30 dni)
126.65 zł
149.00 zł(-15%) -
When it comes to building user interfaces on the web, React enables web developers to unlock a new world of possibilities. This practical book helps you take a deep dive into fundamental concepts of this JavaScript library, including JSX syntax and advanced patterns, the virtual DOM, React reconc...(194.65 zł najniższa cena z 30 dni)
203.15 zł
239.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Doing Data Science. Straight Talk from the Frontline Cathy O'Neil, Rachel Schutt (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.