Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych
- Autor:
- Michael Walker
- Ocena:
- Bądź pierwszym, który oceni tę książkę
- Stron:
- 328
- Druk:
- oprawa miękka
- Dostępne formaty:
-
PDFePubMobi
Opis ebooka: Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych
Przetwarzanie dużych ilości danych daje wiedzę, która leży u podstaw istotnych decyzji podejmowanych przez organizację. Pozwala to na uzyskiwanie znakomitych efektów: techniki wydobywania wiedzy z danych stają się coraz bardziej wyrafinowane. Podstawowym warunkiem sukcesu jest uzyskanie odpowiedniej jakości danych. Wykorzystanie niespójnych i niepełnych informacji prowadzi do podejmowania błędnych decyzji. Konsekwencją mogą być straty finansowe, stwarzanie konkretnych zagrożeń czy uszczerbek na wizerunku. A zatem oczyszczanie jest wyjątkowo ważną częścią analizy danych.
Ta książka jest praktycznym zbiorem gotowych do użycia receptur, podanych tak, aby maksymalnie ułatwić proces przygotowania danych do analizy. Omówiono tu takie kwestie dotyczące danych jak importowanie, ocena ich jakości, uzupełnianie braków, porządkowanie i agregacja, a także przekształcanie. Poza zwięzłym omówieniem tych zadań zaprezentowano najskuteczniejsze techniki ich wykonywania za pomocą różnych narzędzi: Pandas, NumPy, Matplotlib czy SciPy. W ramach każdej receptury wyjaśniono skutki podjętych działań. Cennym uzupełnieniem jest zestaw funkcji i klas zdefiniowanych przez użytkownika, które służą do automatyzacji oczyszczania danych. Umożliwiają one też dostrojenie procesu do konkretnych potrzeb.
W książce znajdziesz receptury, dzięki którym:
- wczytasz i przeanalizujesz dane z różnych źródeł
- uporządkujesz dane, poprawisz ich błędy i uzupełnisz braki
- efektywnie skorzystasz z bibliotek Pythona
- zastosujesz wizualizacje do analizy danych
- napiszesz własne funkcje i klasy do automatyzacji procesu oczyszczania danych
Prawdziwą wartość mają tylko oczyszczone i spójne dane!
Oczyszczanie danych jest niezbędne do uzyskania istotnych wniosków z procesu ich analizy. Bezpośrednie przejście do analizy, bez odpowiedniego oczyszczenia, może prowadzić do otrzymania nieprawidłowych rezultatów. Ta książka prezentuje narzędzia i techniki, które możesz wykorzystać do obsługi i oczyszczania danych w Pythonie.
Zaczniesz od praktycznego zapoznania się z formatem danych, który można wykorzystać w przypadku większości źródeł danych. Następnie dowiesz się, jak przekształcać dane, tak aby nadać im użyteczną formę. Nauczysz się również, jak filtrować dane i obliczać ich statystyki. Dzięki temu uzyskasz wgląd w dane i lepiej zrozumiesz, co ma sens, a co nie. Poznasz techniki pozwalające naprawić występujące w danych problemy, wykonasz ważne zadania, takie jak obsługa brakujących wartości, walidacja błędów, usuwanie duplikatów, monitorowanie dużych zbiorów danych oraz obsługa wartości odstających i nieprawidłowych dat. Następnie zapoznasz się z recepturami prezentującymi wykorzystanie uczenia nadzorowanego i naiwnych klasyfikatorów Bayesa do identyfikacji wartości nieoczekiwanych i błędów klasyfikacji, a także stworzysz wizualizacje ułatwiające eksploracyjną analizę danych i znalezienie wartości nieoczekiwanych. Na koniec stworzysz funkcje i klasy wielokrotnego użytku, które będziesz mógł zastosować, gdy otrzymasz nowe dane.
Lektura tej książki wyposaży Cię we wszystkie podstawowe umiejętności potrzebne do przeprowadzenia procesu oczyszczania danych i zdiagnozowania występujących w nich problemów.
Dzięki lekturze tej książki:
- Dowiedz się, jak wczytywać i analizować dane z różnych źródeł.
- Nauczysz się obliczać statystyki ramek danych, kolumn i wierszy.
- Przefiltrujesz dane i wybierzesz interesujące Cię kolumny, które spełniają zadane kryteria.
- Rozwiążesz problemy z nieuporządkowanymi danymi, w tym problemy z niepoprawnymi datami i brakami wartości.
- Zwiększysz swoją produktywność podczas pracy z biblioteką Pandas za pomocą łączenia metod.
- Wykorzystasz wizualizacje do uzyskania dodatkowych informacji i zidentyfikujesz potencjalne problemy z danymi.
- Poprawisz swoje umiejętności związane z obserwacją tego, co dzieje się w danych.
- Stworzysz własne funkcje i klasy do automatyzacji procesu oczyszczania danych.
Wybrane bestsellery
-
The book shows you how to view data from multiple perspectives, including data frame and column attributes. You will cover common and not-so-common challenges that are faced while cleaning messy data for complex situations. You will learn to manipulate data and get them down to a form that can be...
Python Data Cleaning Cookbook. Modern techniques and Python tools to detect and remove dirty data and extract key insights Python Data Cleaning Cookbook. Modern techniques and Python tools to detect and remove dirty data and extract key insights
-
Data scientists spend 80% of their time cleaning and manipulating data and only 20% of their time analyzing it. Efforts put into cleaning data are crucial, since analyzing dirty data can lead to inaccurate decisions. This is a critically timed book that will help you identify, diagnose, and treat...
Data Cleaning and Exploration with Machine Learning. Get to grips with machine learning techniques to achieve sparkling-clean data quickly Data Cleaning and Exploration with Machine Learning. Get to grips with machine learning techniques to achieve sparkling-clean data quickly
-
Czy chcesz odkryć świat kodowania i stać się młodym programistą w zaledwie jeden dzień? Czy chcesz nauczyć się języka, który otworzy przed tobą drzwi do fascynującego świata technologii? Czy chcesz tworzyć własne gry, aplikacje i nie tylko, korzystając z Pythona, jednego z najbardziej przyjaz...
Python w 1 dzień dla najmłodszych. Naucz się kodowania w Pythonie w 12 godzin Python w 1 dzień dla najmłodszych. Naucz się kodowania w Pythonie w 12 godzin
-
Oto uzupełnione i zaktualizowane wydanie bestsellerowego przewodnika dla inżynierów sieci. Dzięki niemu przejdziesz trudną (ale ekscytującą!) drogę od tradycyjnej platformy do platformy sieciowej opartej na najlepszych praktykach programistycznych. Zaczniesz od zagadnień podstawowych, aby następn...
Zaawansowana inżynieria sieci w Pythonie. Automatyzacja, monitorowanie i zarządzanie chmurą. Wydanie IV Zaawansowana inżynieria sieci w Pythonie. Automatyzacja, monitorowanie i zarządzanie chmurą. Wydanie IV
(77.40 zł najniższa cena z 30 dni)90.30 zł
129.00 zł(-30%) -
Oto drugie, zaktualizowane i uzupełnione wydanie przewodnika po bibliotece Pandas. Dzięki tej przystępnej książce nauczysz się w pełni korzystać z możliwości oferowanych przez bibliotekę, nawet jeśli dopiero zaczynasz przygodę z analizą danych w Pythonie. Naukę rozpoczniesz z użyciem rzeczywisteg...
Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II
(65.40 zł najniższa cena z 30 dni)76.30 zł
109.00 zł(-30%) -
Zanurz się w fascynujący świat programowania w języku Python i osiągnij imponujący poziom umiejętności w zaledwie 24 godziny! Oto kilka zalet, które sprawiają, że ta książka jest niezbędna dla każdego aspirującego programisty: Szybki start: podstawy Pythona już w pierwszych godzinach nauki ...
Python w 1 dzień. Nauka programowania w Pythonie w 24 godziny od A do Z Python w 1 dzień. Nauka programowania w Pythonie w 24 godziny od A do Z
-
To książka przeznaczona dla osób, które pracują ze zbiorami danych. Jest praktycznym przewodnikiem po koncepcjach algebry liniowej, pomyślanym tak, by ułatwić ich zrozumienie i zastosowanie w użytecznych obliczeniach. Poszczególne zagadnienia przedstawiono za pomocą kodu Pythona, wraz z przykłada...
Praktyczna algebra liniowa dla analityków danych. Od podstawowych koncepcji do użytecznych aplikacji w Pythonie Praktyczna algebra liniowa dla analityków danych. Od podstawowych koncepcji do użytecznych aplikacji w Pythonie
(46.20 zł najniższa cena z 30 dni)53.90 zł
77.00 zł(-30%) -
Ta książka stanowi wszechstronne omówienie wszystkich bibliotek Pythona, potrzebnych naukowcom i specjalistom pracującym z danymi. Znalazł się tu dokładny opis IPythona, NumPy, Pandas, Matplotlib, Scikit-Learn i innych narzędzi. Podręcznik uwzględnia przede wszystkim ich aspekty praktyczne, dzięk...
Python Data Science. Niezbędne narzędzia do pracy z danymi. Wydanie II Python Data Science. Niezbędne narzędzia do pracy z danymi. Wydanie II
(77.40 zł najniższa cena z 30 dni)90.30 zł
129.00 zł(-30%) -
To trzecie, zaktualizowane i uzupełnione wydanie bestsellerowego podręcznika programowania w Pythonie. Naukę rozpoczniesz od podstawowych koncepcji programowania. Poznasz takie pojęcia jak zmienne, listy, klasy i pętle, a następnie utrwalisz je dzięki praktycznym ćwiczeniom. Dowiesz się, jak zape...(71.40 zł najniższa cena z 30 dni)
83.30 zł
119.00 zł(-30%)
O autorze ebooka
Michael Walker jest analitykiem danych. Od ponad trzydziestu lat zajmuje się tym zagadnieniem w różnych instytucjach edukacyjnych. Od 2006 roku prowadzi na wyższych uczelniach zajęcia z analizy danych, metod badawczych, statystyki i programowania. Poza tym tworzy raporty dla fundacji i sektora publicznego, a także publikuje analizy w czasopismach naukowych.
Zobacz pozostałe książki z serii
-
Ta książka pomoże Ci w doskonaleniu umiejętności potrzebnych na każdym etapie dochodzenia cyfrowego, od zbierania dowodów, poprzez ich analizę, po tworzenie raportów. Dzięki wielu wskazówkom i praktycznym ćwiczeniom przyswoisz techniki analizy, ekstrakcji danych i raportowania przy użyciu zaawans...
Informatyka śledcza i Kali Linux. Przeprowadź analizy nośników pamięci, ruchu sieciowego i zawartości RAM-u za pomocą narzędzi systemu Kali Linux 2022.x. Wydanie III Informatyka śledcza i Kali Linux. Przeprowadź analizy nośników pamięci, ruchu sieciowego i zawartości RAM-u za pomocą narzędzi systemu Kali Linux 2022.x. Wydanie III
(59.40 zł najniższa cena z 30 dni)69.30 zł
99.00 zł(-30%) -
Ta książka będzie świetnym uzupełnieniem wiedzy o Flutterze i Darcie, sprawdzi się również jako wsparcie podczas rozwiązywania konkretnych problemów. Znalazło się tu ponad sto receptur, dzięki którym poznasz tajniki pisania efektywnego kodu, korzystania z narzędzi udostępnianych przez framework F...
Flutter i Dart. Receptury. Tworzenie chmurowych aplikacji full stack Flutter i Dart. Receptury. Tworzenie chmurowych aplikacji full stack
(41.40 zł najniższa cena z 30 dni)48.30 zł
69.00 zł(-30%) -
Oto zaktualizowane wydanie bestsellerowego przewodnika dla architektów rozwiązań. Dzięki niemu dobrze poznasz wzorce projektowe wbudowane w chmurę, czyli model AWS Well-Architected Framework. Zaznajomisz się z sieciami w chmurze AWS z uwzględnieniem sieci brzegowych i tworzeniem hybrydowych połąc...
AWS dla architektów rozwiązań. Tworzenie, skalowanie i migracja aplikacji do chmury Amazon Web Services. Wydanie II AWS dla architektów rozwiązań. Tworzenie, skalowanie i migracja aplikacji do chmury Amazon Web Services. Wydanie II
Saurabh Shrivastava, Neelanjali Srivastav, Alberto Artasanchez, Imtiaz Sayed
(83.40 zł najniższa cena z 30 dni)97.30 zł
139.00 zł(-30%) -
Ten szczegółowy przewodnik pozwoli Ci na błyskawiczne zapoznanie się z .NET MAUI i sprawne rozpoczęcie pisania aplikacji za pomocą tej technologii. Zaprezentowano w nim filozofię działania .NET MAUI, jak również przebieg prac nad tworzeniem kompletnej aplikacji wieloplatformowej dla systemów: And...
Projektowanie aplikacji w .NET MAUI. Jak budować doskonałe interfejsy użytkownika dla aplikacji wieloplatformowych Projektowanie aplikacji w .NET MAUI. Jak budować doskonałe interfejsy użytkownika dla aplikacji wieloplatformowych
(47.40 zł najniższa cena z 30 dni)55.30 zł
79.00 zł(-30%) -
Ta książka szczególnie przyda się osobom, które rozpoczynają pracę z Angularem. Dzięki niej szybko zaczniesz tworzyć aplikacje z wykorzystaniem wiersza poleceń (CLI), pisać testy jednostkowe i używać stylów zgodnych ze standardem Material Design. Dowiesz się również, jak wdrażać aplikacje w środo...
Poznaj Angular. Rzeczowy przewodnik po tworzeniu aplikacji webowych z użyciem frameworku Angular 15. Wydanie IV Poznaj Angular. Rzeczowy przewodnik po tworzeniu aplikacji webowych z użyciem frameworku Angular 15. Wydanie IV
(53.40 zł najniższa cena z 30 dni)62.30 zł
89.00 zł(-30%) -
Oto praktyczny, przystępnie napisany przewodnik, który stanowi wprowadzenie do pracy z technologią Blazor. Opisuje możliwości modeli Server i WebAssembly, przedstawia także krok po kroku proces powstawania aplikacji internetowej. Dzięki temu płynnie przejdziesz do tworzenia projektów Blazor, nauc...
Platforma Blazor. Praktyczny przewodnik. Jak tworzyć interaktywne aplikacje internetowe z C# i .NET 7. Wydanie II Platforma Blazor. Praktyczny przewodnik. Jak tworzyć interaktywne aplikacje internetowe z C# i .NET 7. Wydanie II
(41.40 zł najniższa cena z 30 dni)48.30 zł
69.00 zł(-30%) -
To książka przeznaczona dla profesjonalnych administratorów i użytkowników Linuksa. Dzięki niej szybciej zrozumiesz, w jakim stopniu dobre zarządzanie systemami na poziomie systemu operacyjnego może wynieść działanie infrastruktury biznesowej na zupełnie inny poziom. Znajdziesz tu najlepsze prakt...
Linux dla admina. Najlepsze praktyki. O czym pamiętać podczas projektowania i zarządzania systemami Linux dla admina. Najlepsze praktyki. O czym pamiętać podczas projektowania i zarządzania systemami
(53.40 zł najniższa cena z 30 dni)62.30 zł
89.00 zł(-30%) -
Książka stanowi wprowadzenie do pracy z funkcjami SI dostępnymi w Power BI; jest skierowana do osób znających to środowisko. Dowiesz się z niej, w jaki sposób sztuczna inteligencja może być używana w Power BI i jakie funkcje są w nim domyślnie dostępne. Nauczysz się też eksplorować i przygotowywa...
Power BI i sztuczna inteligencja. Jak w pełni wykorzystać funkcje AI dostępne w Power BI Power BI i sztuczna inteligencja. Jak w pełni wykorzystać funkcje AI dostępne w Power BI
(47.40 zł najniższa cena z 30 dni)55.30 zł
79.00 zł(-30%) -
To drugie wydanie popularnego przewodnika dla śledczych. Dzięki niemu sprawnie przygotujesz się do pracy z narzędziami kryminalistycznymi i zapoznasz się ze stosowanymi w informatyce śledczej technikami. Nauczysz się pozyskiwać informacje o podejrzanych i zabezpieczać znajdujące się w sieci dane,...
Informatyka śledcza. Gromadzenie, analiza i zabezpieczanie dowodów elektronicznych dla początkujących. Wydanie II Informatyka śledcza. Gromadzenie, analiza i zabezpieczanie dowodów elektronicznych dla początkujących. Wydanie II
(47.40 zł najniższa cena z 30 dni)55.30 zł
79.00 zł(-30%) -
Dzięki temu praktycznemu podręcznikowi zrozumiesz, kiedy i dlaczego warto zastosować myślenie funkcyjne, a także jak korzystać z technik funkcyjnych w różnych scenariuszach. Dowiesz się również, jakie narzędzia i biblioteki przeznaczone do tego celu są dostępne w Pythonie i jak używać wyrażeń gen...
Programowanie funkcyjne w Pythonie. Jak pisać zwięzły, wydajny i ekspresywny kod. Wydanie III Programowanie funkcyjne w Pythonie. Jak pisać zwięzły, wydajny i ekspresywny kod. Wydanie III
(53.40 zł najniższa cena z 30 dni)62.30 zł
89.00 zł(-30%)
Ebooka "Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- Tytuł oryginału:
- Python Data Cleaning Cookbook: Modern techniques and Python tools to detect and remove dirty data and extract key insights
- Tłumaczenie:
- Filip Kamiński
- ISBN Książki drukowanej:
- 978-83-283-8029-5, 9788328380295
- Data wydania książki drukowanej:
- 2021-10-26
- ISBN Ebooka:
- 978-83-283-8030-1, 9788328380301
- Data wydania ebooka:
- 2021-10-26 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Format:
- 168x237
- Numer z katalogu:
- 151824
- Rozmiar pliku Pdf:
- 7.8MB
- Rozmiar pliku ePub:
- 5.7MB
- Rozmiar pliku Mobi:
- 11.9MB
- Przykłady na ftp
Ebook zawiera materiały dodatkowe, które możesz pobrać z serwera FTP - link znajdziesz na stronie redakcyjnej.
- Zgłoś erratę
- Serie wydawnicze: Receptury Packt
Spis treści ebooka
- Wymagania techniczne 18
- Importowanie danych z plików CSV 18
- Przygotuj się 18
- Jak to zrobić... 19
- Jak to działa... 21
- Zobacz również... 22
- Co dalej? 23
- Importowanie plików z Excela 23
- Przygotuj się 24
- Jak to zrobić... 24
- Jak to działa... 28
- Zobacz również... 29
- Co dalej? 29
- Importowanie danych z baz SQL 30
- Przygotuj się 30
- Jak to zrobić... 31
- Jak to działa... 34
- Zobacz również... 36
- Co dalej? 36
- Importowanie danych z SPSS, Stata i SAS 36
- Przygotuj się 37
- Jak to zrobić... 37
- Jak to działa... 42
- Zobacz również... 43
- Co dalej? 43
- Importowanie danych z R 43
- Przygotuj się 44
- Jak to zrobić... 44
- Jak to działa... 46
- Zobacz również... 47
- Co dalej? 47
- Przechowywanie danych tablicowych 48
- Przygotuj się 49
- Jak to zrobić... 49
- Jak to działa... 51
- Zobacz również 51
- Wymagania techniczne 54
- Importowanie danych z prostego pliku JSON 54
- Przygotuj się 54
- Jak to zrobić... 55
- Jak to działa... 58
- Zobacz również... 59
- Importowanie bardziej złożonego JSON-a za pomocą API 60
- Przygotuj się 60
- Jak to zrobić... 61
- Jak to działa... 63
- Zobacz również... 64
- Co dalej? 64
- Importowanie danych ze stron internetowych 65
- Przygotuj się 65
- Jak to zrobić... 66
- Jak to działa... 68
- Zobacz również... 69
- Przechowywanie danych w formacie JSON 69
- Przygotuj się 70
- Jak to zrobić... 71
- Jak to działa... 72
- Zobacz również... 73
- Wymagania techniczne 76
- Pierwsze spojrzenie na dane 76
- Przygotuj się... 77
- Jak to zrobić... 77
- Jak to działa... 79
- Zobacz również... 80
- Co dalej? 81
- Wybór i organizacja kolumn 81
- Przygotuj się... 81
- Jak to zrobić... 81
- Jak to działa... 85
- Zobacz również... 86
- Co dalej? 87
- Selekcja wierszy 87
- Przygotuj się... 87
- Jak to zrobić... 87
- Jak to działa... 94
- Zobacz również... 95
- Co dalej? 95
- Obliczanie częstości zmiennych kategorialnych 95
- Przygotuj się... 95
- Jak to zrobić... 95
- Jak to działa... 98
- Zobacz również... 99
- Generowanie statystyk podsumowujących zmienne ciągłe 99
- Przygotuj się... 100
- Jak to zrobić... 100
- Jak to działa... 102
- Co dalej? 103
- Wymagania techniczne 106
- Wykrywanie brakujących wartości 106
- Przygotuj się 106
- Jak to zrobić... 107
- Jak to działa... 109
- Co dalej? 110
- Identyfikowanie wartości odstających w pojedynczych zmiennych 110
- Przygotuj się 110
- Jak to zrobić... 111
- Jak to działa... 117
- Zobacz również... 117
- Co dalej? 118
- Identyfikacja wartości odstających i nieoczekiwanych w relacjach pomiędzy dwiema zmiennymi 118
- Przygotuj się 119
- Jak to zrobić... 119
- Jak to działa... 124
- Zobacz również... 125
- Co dalej? 126
- Wykorzystanie podzbiorów do badania logicznych niespójności w relacjach pomiędzy zmiennymi 126
- Przygotuj się 126
- Jak to zrobić... 127
- Jak to działa... 132
- Co dalej? 132
- Wykorzystanie regresji liniowej do identyfikacji punktów danych o znaczącym wpływie 132
- Przygotuj się 133
- Jak to zrobić... 133
- Jak to działa... 135
- Zobacz również... 136
- Znajdowanie wartości odstających za pomocą algorytmu k-najbliższych sąsiadów 136
- Przygotuj się 136
- Jak to zrobić... 137
- Jak to działa... 138
- Zobacz również... 139
- Co dalej? 139
- Wykorzystanie Isolation Forest do znajdowania anomalii 139
- Przygotuj się 140
- Jak to zrobić... 140
- Jak to działa... 143
- Zobacz również... 143
- Co dalej? 143
- Wymagania techniczne 146
- Badanie rozkładu zmiennych ciągłych za pomocą histogramów 146
- Przygotuj się 147
- Jak to zrobić... 147
- Jak to działa... 152
- Zobacz również... 153
- Identyfikacja wartości odstających w zmiennych ciągłych za pomocą wykresów pudełkowych 154
- Przygotuj się 154
- Jak to zrobić... 154
- Jak to działa... 158
- Zobacz również... 159
- Co dalej? 159
- Wykorzystanie grup wykresów pudełkowych do identyfikacji wartości nieoczekiwanych w określonej grupie 160
- Przygotuj się 160
- Jak to zrobić... 160
- Jak to działa... 164
- Zobacz również... 165
- Co dalej? 166
- Analiza wartości odstających i kształtu rozkładu za pomocą wykresów skrzypcowych 166
- Przygotuj się 166
- Jak to zrobić... 166
- Jak to działa... 170
- Zobacz również... 171
- Co dalej? 172
- Wykorzystanie wykresów punktowych do przedstawienia relacji dwuwymiarowych 172
- Przygotuj się 172
- Jak to zrobić... 173
- Jak to działa... 178
- Zobacz również... 179
- Co dalej? 179
- Wykorzystanie wykresów liniowych do analizy trendów zmiennych ciągłych 179
- Przygotuj się 179
- Jak to zrobić... 180
- Jak to działa... 184
- Zobacz również... 184
- Co dalej? 185
- Generowanie mapy ciepła na podstawie macierzy korelacji 185
- Przygotuj się 185
- Jak to zrobić... 185
- Jak to działa... 187
- Zobacz również... 188
- Co dalej? 188
- Wymagania techniczne 190
- Pobieranie wartości z obiektów typu Series w pandas 190
- Przygotuj się 191
- Jak to zrobić... 191
- Jak to działa... 194
- Statystyki podsumowujące obiektów typu Series 194
- Przygotuj się 195
- Jak to zrobić... 195
- Jak to działa... 197
- Zobacz również... 198
- Co dalej? 198
- Zmiana wartości w obiektach typu Series 198
- Przygotuj się 198
- Jak to zrobić... 199
- Jak to działa... 201
- Zobacz również... 201
- Co dalej? 202
- Warunkowa zmiana wartości w obiektach typu Series 202
- Przygotuj się 202
- Jak to zrobić... 203
- Jak to działa... 206
- Zobacz również... 207
- Co dalej? 208
- Ocena zawartości i oczyszczanie serii łańcuchów znaków 208
- Przygotuj się 208
- Jak to zrobić... 208
- Jak to działa... 212
- Zobacz również... 212
- Praca z datami 212
- Przygotuj się 212
- Jak to zrobić... 213
- Jak to działa... 216
- Co dalej? 217
- Identyfikowanie i usuwanie braków w danych 217
- Przygotuj się 218
- Jak to zrobić... 218
- Jak to działa... 221
- Zobacz również... 221
- Co dalej? 221
- Imputacja brakujących wartości za pomocą metody k-najbliższych sąsiadów 222
- Przygotuj się 222
- Jak to zrobić... 222
- Jak to działa... 223
- Zobacz również... 223
- Co dalej? 224
- Wymagania techniczne 226
- Iteracje z użyciem itertuples (antywzorzec) 226
- Przygotuj się 227
- Jak to zrobić... 227
- Jak to działa... 229
- Zobacz również... 230
- Obliczanie statystyk podsumowujących poszczególne grupy za pomocą tablic NumPy 231
- Przygotuj się 231
- Jak to zrobić... 231
- Jak to działa... 233
- Zobacz również... 233
- Co dalej? 233
- Grupowanie danych za pomocą groupby 234
- Przygotuj się 234
- Jak to zrobić... 234
- Jak to działa... 236
- Zobacz również... 236
- Korzystanie z bardziej skomplikowanych funkcji agregujących i groupby 237
- Przygotuj się 237
- Jak to zrobić... 237
- Jak to działa... 240
- Zobacz również... 241
- Co dalej? 242
- groupby i funkcje zdefiniowane przez użytkownika 242
- Przygotuj się 242
- Jak to zrobić... 242
- Jak to działa... 245
- Zobacz również... 245
- Co dalej? 246
- Wykorzystanie groupby do zmiany jednostki analizy w ramce 246
- Przygotuj się 246
- Jak to zrobić... 246
- Jak to działa... 247
- Wymagania techniczne 250
- Łączenie ramek danych w pionie 250
- Przygotuj się 251
- Jak to zrobić... 251
- Jak to działa... 253
- Co dalej? 254
- Wykonywanie połączeń jeden-do-jednego 254
- Przygotuj się 256
- Jak to zrobić... 256
- Jak to działa... 259
- Zobacz również... 260
- Scalenia w wielu kolumnach 260
- Przygotuj się 260
- Jak to zrobić... 261
- Jak to działa... 262
- Zobacz również... 263
- Wykonywanie połączeń jeden-do-wielu 263
- Przygotuj się 264
- Jak to zrobić... 264
- Jak to działa... 267
- Zobacz również... 267
- Co dalej? 268
- Wykonywanie połączeń wiele-do-wielu 268
- Przygotuj się 268
- Jak to zrobić... 269
- Jak to działa... 271
- Zobacz również... 272
- Opracowanie procedury scalania 273
- Przygotuj się 273
- Jak to zrobić... 273
- Jak to działa... 274
- Co dalej? 275
- Wymagania techniczne 278
- Usuwanie zduplikowanych wierszy 278
- Przygotuj się... 278
- Jak to zrobić... 279
- Jak to działa... 281
- Zobacz również... 281
- Co dalej? 281
- Naprawianie relacji wiele-do-wielu 281
- Przygotuj się... 282
- Jak to zrobić... 282
- Jak to działa... 285
- Zobacz również... 286
- Co dalej? 287
- Wykorzystanie stack i melt do zmiany kształtu danych z szerokiego na długi 287
- Przygotuj się... 288
- Jak to zrobić... 288
- Jak to działa... 291
- Obracanie wielu grup kolumn 291
- Przygotuj się... 291
- Jak to zrobić... 292
- Jak to działa... 293
- Zobacz również... 293
- Wykorzystanie unstack i pivot do zmiany kształtu danych z długich na szerokie 294
- Przygotuj się... 294
- Jak to zrobić... 294
- Jak to działa... 296
- Wymagania techniczne 298
- Funkcje ułatwiające pierwsze spojrzenie na dane 298
- Przygotuj się... 298
- Jak to zrobić... 299
- Jak to działa... 302
- Zobacz również... 302
- Funkcje do wyświetlania statystyk podsumowujących i częstości 302
- Przygotuj się 303
- Jak to zrobić... 303
- Jak to działa... 307
- Zobacz również... 307
- Co dalej? 307
- Funkcje do identyfikowania wartości odstających i nieoczekiwanych 308
- Przygotuj się 308
- Jak to zrobić... 308
- Jak to działa... 312
- Zobacz również... 313
- Co dalej? 313
- Funkcje do agregacji lub łączenia danych 313
- Przygotuj się 314
- Jak to zrobić... 314
- Jak to działa... 318
- Zobacz również... 318
- Co dalej? 318
- Klasy zawierające logikę do aktualizowania wartości serii 319
- Przygotuj się 319
- Jak to zrobić... 319
- Jak to działa... 322
- Zobacz również... 323
- Co dalej? 323
- Klasy obsługujące inne niż tabelaryczne struktury danych 324
- Przygotuj się 324
- Jak to zrobić... 325
- Jak to działa... 328
- Zobacz również... 328
O autorze 11
O recenzentach 12
Wprowadzenie 13
Rozdział 1. Oczyszczanie danych podczas importowania danych tabelarycznych do pandas 17
Rozdział 2. Oczyszczanie danych podczas importowania HTML-a i JSON-a do pandas 53
Rozdział 3. Przeprowadzanie pomiarów danych 75
Rozdział 4. Identyfikacja brakujących i odstających wartości w podzbiorach danych 105
Rozdział 5. Wykorzystanie wizualizacji do identyfikacji nieoczekiwanych wartości 145
Rozdział 6. Oczyszczanie i eksploracja danych za pomocą operacji na obiektach typu Series 189
Rozdział 7. Porządkowanie danych podczas agregacji 225
Rozdział 8. Rozwiązywanie problemów z danymi podczas łączenia ramek danych 249
Rozdział 9. Porządkowanie i przekształcanie danych 277
Rozdział 10. Zdefiniowane przez użytkownika funkcje i klasy do automatyzacji procesu oczyszczania danych 297
Oceny i opinie klientów: Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych Michael Walker (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.