PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL

Promocja

Piotr Chudzik

5.0

0 opinii

Podstawowe informacje:

Czas trwania: 03:50:54

Poziom: średnio zaawansowany

Autor: Piotr Chudzik

Liczba lekcji: 38

Technologia: JupyterLab, Python 3.10, PySpark 3.4

Dla firm

Rozwiń umiejętności swoich pracowników dzięki kursom video

Dowiedz się więcej

Monitorowanie postępów pracowników. Przejrzyste raporty i imienne certyfikaty ukończenia kursów
Atrakcyjne rabaty dla zespołów. Im więcej pracowników liczy zespół, tym większy uzyskasz rabat
Doradztwo w wyborze tematyki szkoleń. Mamy setki kursów, dostosujemy program nauczania pod Twój zespół

Indywidualnie

119,20 zł ~~149,00 zł~~ (-20%)

111,75 zł najniższa cena z 30 dni Dodaj do koszyka

Dostępny natychmiast po opłaceniu zakupu

Do przechowalni

Korzyści:

Certyfikat ukończenia
Materiały dodatkowe do kursu
Test online
Dożywotni dostęp
Dostęp w aplikacji (także offline)
Napisy w języku polskim

Ten kurs należy do ścieżki Analityk danych z Pythonem

Czas trwania: 28 godz.

DOWIEDZ SIĘ WIĘCEJ

Ten kurs należy do ścieżki Analityk danych z Pythonem »

Czego się nauczysz?

Konfigurowania środowiska pracy z PySpark
Tworzenia DataFrame i wykonywania selekcji oraz sortowania danych
Budowania schematów i pracy z różnymi typami danych
Łączenia zbiorów danych i stosowania agregacji
Przekształcania danych (konkatenacja, rzutowanie, explode)
Tworzenia własnych funkcji i stosowania mapowania w PySpark
Zapisywania i odczytywania danych z plików, w tym w formacie Parquet
Realizacji pierwszych procesów ETL z wykorzystaniem PySpark

Spis lekcji

1. Wprowadzenie 00:22:30

1.1. Wstęp

00:03:38

1.2. Przygotowanie środowiska Python

00:05:31

1.3. Przygotowanie środowiska JupyterLab

00:05:04

1.4. Konfiguracja 'Hello World!'

00:08:17

2. Początki z PySpark 00:12:40

2.1. Tworzenie DataFrame

00:04:23

2.2. Czytanie danych z .csv

00:04:42

2.3. Konfiguracja odczytu .csv

00:03:35

3. Schematy 00:15:16

3.1. Wyświetlanie schematu DF

00:02:46

3.2. Tworzenie schematu

00:06:01

3.3. Implementacja schematu

00:06:29

4. Selekcja danych 00:20:53

4.1. Wyświetlanie wybranych kolumn

00:03:50

4.2. Sortowanie danych

00:04:45

4.3. limit i collect

00:07:32

4.4. Dodawanie kolumny

00:04:46

5. Kolekcje, daty i funkcje 00:48:57

5.1. Lista i słownik w DataFrame

OGLĄDAJ » 00:08:28

5.2. getItem oraz size

00:05:21

5.3. lit i explode

00:06:02

5.4. Konkatenacja

00:05:05

5.5. substring

00:05:32

5.6. DateType i TimestampType

00:04:16

5.7. datediff

00:04:56

5.8. date_add/date_sub

00:04:34

5.9. Ekstrakcja danej jednostki czasu

00:04:43

6. Filtrowanie danych 00:37:36

6.1. Unikatowe wiersze

00:08:25

6.2. Filtrowanie danych cz. 1

00:10:47

6.3. Filtrowanie danych cz. 2

00:10:09

6.4. Łączanie warunków

00:08:15

7. Grupowanie danych 00:26:40

7.1. Funkcje agregujące/alias

00:08:26

7.2. Grupowanie danych

00:08:22

7.3. JOIN

00:05:34

7.4. Union/UnionAll

00:04:18

8. Mapowanie i funkcje użytkownika 00:28:34

8.1. Funkcje użytkownika UDF

OGLĄDAJ » 00:07:43

8.2. Funkcja when

00:06:29

8.3. Funkcja map

00:09:47

8.4. Funkcja flatMap

00:04:35

9. Zapisywanie danych do pliku 00:17:48

9.1. Omówienie formatów danych

00:05:24

9.2. Zapis do pliku

00:06:47

9.3. Spark SQL

00:05:37

Obierz kurs na... pracę z dużymi zbiorami danych

Czy znane są Ci nazwy Apache Spark i PySpark? Jeśli pracujesz z danymi i do tej pory nie poznałeś tej technologii, najwyższy czas to nadrobić - na przykład w trakcie proponowanego przez nas szkolenia wideo. Apache Spark to otwarta platforma programistyczna służąca do obliczeń rozproszonych. Opracowana i rozwijana początkowo na Uniwersytecie Kalifornijskim, dziś zarządzana przez Apache Software Foundation, świetnie nadaje się do analizy dużych zbiorów danych. Jej interfejs API, znany jako PySpark, skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData.

W ostatnich latach PySpark stał się najpopularniejszym narzędziem służącym przetwarzaniu danych; może swobodnie zastąpić w tym zakresie SQL czy biblioteki pandas/numpy. Ze Sparka korzystają między innymi Databricks, DeepNote czy JupyterLab. Szczególną cechą i zaletą tego rozwiązania jest to, że umożliwia ono przetwarzanie danych w sposób rozproszony. Nasz kurs pozwala zdobyć bazową wiedzę z zakresu pracy z danymi za pomocą Apache Spark (PySpark). W jego trakcie będziemy przygotowywać dane, selekcjonować je, sortować, agregować, łączyć i grupować, a także stworzymy własne funkcje do mapowania ich i nauczymy się zapisywać je do pliku.

Co Cię czeka podczas naszego profesjonalnego szkolenia

W ramach nauki z proponowanym przez nas kursem między innymi:

Skonfigurujesz środowisko pracy
Dowiesz się, czym jest SparkSession i jak ją uruchomić
Stworzysz podstawową DataFrame
Dokonasz selekcję danych i je posortujesz
Zbudujesz schemat dla danych
Poznasz podstawowe operacje związane z agregacją danych i łączeniem zbiorów w jeden
Przetransformujesz dane za pomocą takich metod jak konkatenacja, rzutowanie czy explode
Wykreujesz własne funkcje dla PySpark
Wykonasz mapowanie
Zapiszesz dane i odczytasz je z pliku - także w formacie parquet

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL kończy się na poziomie podstawowym. Otrzymana wiedza pozwoli Ci na samodzielne tworzenie pierwszych procesów związanych z transformacją i przetwarzaniem danych. Ułatwi Ci również ich mapowanie i zmianę typów danych. Po ukończeniu szkolenia bez problemu przygotujesz zadania z zakresu ETL.

Apache Spark

Apache Spark jest silnikiem zbudowanym specjalnie w celu przetwarzania danych. Został wyposażony w całą masę służących do tego bibliotek. Co ważne, dane w Sparku można przetwarzać równolegle, co stało się jednym z powodów, dla których technologia ta zdominowała świat big data. Apache Spark obsługuje wiele języków programowania, takich jak SQL, Scala, Python czy R, i pozwala rozwiązywać problemy na różne sposoby z zastosowaniem SQL, transmisji danych i uczenia maszynowego. Przydaje się wszędzie tam, gdzie ilość danych, które wymagają przetworzenia, przekracza możliwości tradycyjnych narzędzi.

Wybrane bestsellery

Nowość Promocja Promocja 2za1

SQL pozostaje fundamentalnym narzędziem w nowoczesnej analityce danych, a jego znajomość należy do najbardziej pożądanych na rynku IT. W erze big data i podejmowania decyzji opartych na danych ważna jest umiejętność efektywnego wydobywania informacji z relacyjnych baz danych. Czwarte wydanie tej książki, zaktualizowane o najnowsze funkcje PostgreSQL i dostosowane do współczesnych przepływów pracy, łączy tradycyjne podejście SQL-owe z nowoczesnymi narzędziami, jak Python, i technikami uczenia maszynowego.
- ebook
- książka
SQL dla analityków danych. Skutecznie analizuj dane, wyciągaj wartościowe wnioski i opanuj zaawansowany SQL na potrzeby praktycznych zastosowań. Wydanie IV

Jun Shan, Haibin Li, Matt Goldwasser, Upom Malik, Benjamin Johnston

(39,50 zł najniższa cena z 30 dni)

47.40 zł ~~79.00 zł (-40%)~~
Nowość Promocja Promocja 2za1

Wyobraź sobie, że raport, który przygotowujesz dziś przez dwie godziny, jutro aktualizuje się sam po jednym kliknięciu. Bez ręcznego kopiowania danych, bez poprawiania formatów, bez łączenia kilkunastu plików Excela w środku dnia. Właśnie tak działa Power Query – narzędzie, które zmienia Excela z „arkusza do tabel” w potężne środowisko służące do automatyzacji i analizy danych.
- kurs
Power Query. Kurs video. Analizuj dane jak profesjonalista

Adam Kopeć

(224,25 zł najniższa cena z 30 dni)

239.20 zł ~~299.00 zł (-20%)~~
Promocja Promocja 2za1

Z tą książką krok po kroku zagłębisz się w metody OSINT, a także powiązane z nim zagadnienia natury prawnej i etycznej. Poznasz sposoby gromadzenia i analizowania informacji z wykorzystaniem wyszukiwarek, portali społecznościowych i innych zasobów internetowych. Zrozumiesz wagę anonimowości i technik gwarantujących bezpieczne poruszanie się po sieci, ułatwiających zarządzanie cyfrowym śladem czy tworzenie fikcyjnych tożsamości internetowych. Zdobędziesz również doświadczenie w korzystaniu z popularnych narzędzi OSINT, takich jak Recon-ng, Maltego, Shodan czy Aircrack-ng. Dowiesz się też, jak ograniczać ryzyko, przewidywać cyberataki, zapobiegać im i na nie reagować — wszystko dzięki technikom opartym na OSINT.
- ebook
- książka
OSINT w praktyce. Jak gromadzić i analizować dane dostępne w sieci

Dale Meredith

(33,50 zł najniższa cena z 30 dni)

40.20 zł ~~67.00 zł (-40%)~~
Promocja Promocja 2za1

To trzecie, zaktualizowane i uzupełnione wydanie bestsellerowego podręcznika programowania w Pythonie. Naukę rozpoczniesz od podstawowych koncepcji programowania. Poznasz takie pojęcia jak zmienne, listy, klasy i pętle, a następnie utrwalisz je dzięki praktycznym ćwiczeniom. Dowiesz się, jak zapewnić interaktywność programom, i nauczysz się poprawnego testowania kodu przed dodaniem go do projektu. W kolejnych rozdziałach przystąpisz do praktycznej realizacji trzech projektów: gry zręcznościowej inspirowanej klasyczną Space Invaders, wizualizacji danych za pomocą dostępnych dla Pythona niezwykle użytecznych bibliotek i prostej aplikacji internetowej, gotowej do wdrożenia na serwerze WWW i opublikowania w internecie.
- ebook
- książka
Python. Instrukcje dla programisty. Wydanie III

Eric Matthes

(59,50 zł najniższa cena z 30 dni)

71.40 zł ~~119.00 zł (-40%)~~
Nowość Promocja Promocja 2za1

The fourth edition of Microsoft Power BI Quick Start Guide helps you master data visualization and insights with ease, no experience needed. Learn Power BI fast and turn raw data into impactful decisions with hands-on, real-world examples.
- ebook
Microsoft Power BI Quick Start Guide. The Ultimate Beginner's Guide to Power BI, Data Storytelling, AI Tools, and Microsoft Fabric - Fourth Edition

Devin Knight, Erin Ostrowsky, Mitchell Pearson, Bradley Schacht

(139,00 zł najniższa cena z 30 dni)

125.10 zł ~~139.00 zł (-10%)~~
Nowość Promocja Promocja 2za1

This book will teach you how to implement, automate, and govern IAM across Azure, AWS, and Google Cloud. Design secure, scalable IAM architectures, integrate access controls into CI/CD pipelines, and ensure compliance in multi-cloud environments
- ebook
Identity and Access Management for Cloud and DevOps Engineers. Design and automate secure identity access strategies across Azure, AWS, and GCP

Jeremy Wallace

(129,00 zł najniższa cena z 30 dni)

116.10 zł ~~129.00 zł (-10%)~~
Nowość Promocja Promocja 2za1

An opinionated guide for data engineers, software developers, business analysts, and organizational Leaders to address quality, governance, and understanding of your data using standardized approaches and technologies like git, JSON, YAML, and Python.
- ebook
Data Contracts in Practice. Master data contracts to boost efficiency, align data understanding, and support data governance

Ryan Collingwood

(119,00 zł najniższa cena z 30 dni)

107.10 zł ~~119.00 zł (-10%)~~
Nowość Promocja Promocja 2za1

This book helps you learn to scale, automate, and operationalize machine learning workflows in Azure and confidently pass the Microsoft Certified Azure Data Scientist Associate exam (DP-100).
- ebook
Azure Data Scientist Associate DP-100 Certification Guide. A hands-on guide to machine learning in Azure and passing the Microsoft Certified DP-100 exam - Second Edition

Evangelos Misirlis

(129,00 zł najniższa cena z 30 dni)

116.10 zł ~~129.00 zł (-10%)~~
Nowość Promocja Promocja 2za1

Hands-on and strategic recipes for the Snowflake AI Data Cloud that show not just how, but when and why to apply each capability to build governed, intelligent, AI-ready data platforms.
- ebook
Snowflake Cookbook. Strategic and practical recipes for building governed, intelligent, AI-ready data platforms - Second Edition

Keith Belanger

(129,00 zł najniższa cena z 30 dni)

116.10 zł ~~129.00 zł (-10%)~~
Nowość Promocja Promocja 2za1

This third edition teaches you to design, test, and deploy AI-driven trading systems using the 7-Stage ML4T Workflow, covering Generative AI, causal inference, and MLOps for robust, adaptive, and systematic strategies.
- ebook
Machine Learning for Trading. Integrate GenAI, Causal Inference, and Reinforcement Learning into Real World Trading Systems - Third Edition

Stefan Jansen

(139,00 zł najniższa cena z 30 dni)

125.10 zł ~~139.00 zł (-10%)~~

O autorze kursu video

Piotr Chudzik - absolwent Politechniki Łódzkiej, jego specjalizacja zawodowa to technologie big data oraz administracja nowoczesnymi środowiskami IT (wykorzystującymi między innymi cloud computing, konteneryzację czy IaC - infrastructure as code). Pracuje jako wykładowca na Uniwersytecie Łódzkim, gdzie przekazuje studentom wiedzę na temat Linuksa, baz danych i programowania w języku Python. Jest również trenerem w Software Development Academy. Na co dzień zatrudniony jako menadżer techniczny w dużym zagranicznym banku, odpowiada za prawidłowe i nieprzerwane działanie aplikacji opartych na Google Cloud Platform. Zawsze otwarty na nowe doświadczenia oraz wiedzę, którą w przyszłości mógłby się podzielić z innymi. Interesuje się grami komputerowymi, światem nowych technologii i fantastyką. Jest fanem serii Wiedźmin i uniwersum Warhammera.