Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych Michael Walker
- Autor:
- Michael Walker
- Serie wydawnicze:
- Receptury
- Wydawnictwo:
- Helion
- Wydawnictwo:
- Helion
- Ocena:
- Stron:
- 328
- Druk:
- oprawa miękka
- Dostępne formaty:
-
PDFePubMobi
Opis
książki
:
Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych
Czego się nauczysz?
- Importowania danych do pandas z różnych źródeł: CSV, Excel, bazy SQL, SPSS, Stata, SAS, R
- Przechowywania i organizowania danych tablicowych oraz w formacie JSON
- Importowania i oczyszczania danych z plików HTML i JSON, także przez API
- Przeprowadzania wstępnej analizy danych i generowania statystyk podsumowujących
- Wybierania, organizowania i selekcjonowania kolumn oraz wierszy danych
- Wykrywania brakujących wartości i identyfikowania wartości odstających
- Stosowania algorytmów k-najbliższych sąsiadów i Isolation Forest do znajdowania anomalii
- Wykorzystywania wizualizacji (histogramy, wykresy pudełkowe, skrzypcowe, punktowe, liniowe, mapy ciepła) do analizy danych
- Pracy z obiektami Series w pandas: pobierania, zmiany i oczyszczania wartości
- Imputowania brakujących danych za pomocą różnych metod, w tym k-najbliższych sąsiadów
- Grupowania, agregowania i przekształcania danych z użyciem groupby i funkcji NumPy
- Łączenia ramek danych w różnych układach (jeden-do-jednego, jeden-do-wielu, wiele-do-wielu)
- Usuwania duplikatów i naprawiania relacji wiele-do-wielu w danych
- Zmiany kształtu danych z szerokich na długie i odwrotnie (stack, melt, unstack, pivot)
- Tworzenia własnych funkcji i klas do automatyzacji oczyszczania i analizy danych
- Automatyzowania identyfikacji anomalii, agregacji oraz aktualizacji wartości w danych
Przetwarzanie dużych ilości danych daje wiedzę, która leży u podstaw istotnych decyzji podejmowanych przez organizację. Pozwala to na uzyskiwanie znakomitych efektów: techniki wydobywania wiedzy z danych stają się coraz bardziej wyrafinowane. Podstawowym warunkiem sukcesu jest uzyskanie odpowiedniej jakości danych. Wykorzystanie niespójnych i niepełnych informacji prowadzi do podejmowania błędnych decyzji. Konsekwencją mogą być straty finansowe, stwarzanie konkretnych zagrożeń czy uszczerbek na wizerunku. A zatem oczyszczanie jest wyjątkowo ważną częścią analizy danych.
Ta książka jest praktycznym zbiorem gotowych do użycia receptur, podanych tak, aby maksymalnie ułatwić proces przygotowania danych do analizy. Omówiono tu takie kwestie dotyczące danych jak importowanie, ocena ich jakości, uzupełnianie braków, porządkowanie i agregacja, a także przekształcanie. Poza zwięzłym omówieniem tych zadań zaprezentowano najskuteczniejsze techniki ich wykonywania za pomocą różnych narzędzi: Pandas, NumPy, Matplotlib czy SciPy. W ramach każdej receptury wyjaśniono skutki podjętych działań. Cennym uzupełnieniem jest zestaw funkcji i klas zdefiniowanych przez użytkownika, które służą do automatyzacji oczyszczania danych. Umożliwiają one też dostrojenie procesu do konkretnych potrzeb.
W książce znajdziesz receptury, dzięki którym:
- wczytasz i przeanalizujesz dane z różnych źródeł
- uporządkujesz dane, poprawisz ich błędy i uzupełnisz braki
- efektywnie skorzystasz z bibliotek Pythona
- zastosujesz wizualizacje do analizy danych
- napiszesz własne funkcje i klasy do automatyzacji procesu oczyszczania danych
Prawdziwą wartość mają tylko oczyszczone i spójne dane!
Wybrane bestsellery
Zobacz pozostałe książki z serii Receptury
Helion - inne książki
Dzięki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep@ebookpoint.pl
Książka drukowana

Oceny i opinie klientów: Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych Michael Walker
(0)