PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL

Promocja

Piotr Chudzik

5.0

1 opinii

Podstawowe informacje:

Czas trwania: 03:50:54

Poziom: średnio zaawansowany

Autor: Piotr Chudzik

Liczba lekcji: 38

Technologia: JupyterLab, Python 3.10, PySpark 3.4

Dla firm

Rozwiń umiejętności swoich pracowników dzięki kursom video

Dowiedz się więcej

Monitorowanie postępów pracowników. Przejrzyste raporty i imienne certyfikaty ukończenia kursów
Atrakcyjne rabaty dla zespołów. Im więcej pracowników liczy zespół, tym większy uzyskasz rabat
Doradztwo w wyborze tematyki szkoleń. Mamy setki kursów, dostosujemy program nauczania pod Twój zespół

Indywidualnie

119,20 zł ~~149,00 zł~~ (-20%)

111,75 zł najniższa cena z 30 dni Dodaj do koszyka

Dostępny natychmiast po opłaceniu zakupu

Do przechowalni

Korzyści:

Certyfikat ukończenia
Materiały dodatkowe do kursu
Test online
Dożywotni dostęp
Dostęp w aplikacji (także offline)
Napisy w języku polskim

Ten kurs należy do ścieżki Analityk danych z Pythonem

Czas trwania: 28 godz.

DOWIEDZ SIĘ WIĘCEJ

Ten kurs należy do ścieżki Analityk danych z Pythonem »

Czego się nauczysz?

Konfigurowania środowiska pracy z PySpark
Tworzenia DataFrame i wykonywania selekcji oraz sortowania danych
Budowania schematów i pracy z różnymi typami danych
Łączenia zbiorów danych i stosowania agregacji
Przekształcania danych (konkatenacja, rzutowanie, explode)
Tworzenia własnych funkcji i stosowania mapowania w PySpark
Zapisywania i odczytywania danych z plików, w tym w formacie Parquet
Realizacji pierwszych procesów ETL z wykorzystaniem PySpark

Spis lekcji

1. Wprowadzenie 00:22:30

1.1. Wstęp

00:03:38

1.2. Przygotowanie środowiska Python

00:05:31

1.3. Przygotowanie środowiska JupyterLab

00:05:04

1.4. Konfiguracja 'Hello World!'

00:08:17

2. Początki z PySpark 00:12:40

2.1. Tworzenie DataFrame

00:04:23

2.2. Czytanie danych z .csv

00:04:42

2.3. Konfiguracja odczytu .csv

00:03:35

3. Schematy 00:15:16

3.1. Wyświetlanie schematu DF

00:02:46

3.2. Tworzenie schematu

00:06:01

3.3. Implementacja schematu

00:06:29

4. Selekcja danych 00:20:53

4.1. Wyświetlanie wybranych kolumn

00:03:50

4.2. Sortowanie danych

00:04:45

4.3. limit i collect

00:07:32

4.4. Dodawanie kolumny

00:04:46

5. Kolekcje, daty i funkcje 00:48:57

5.1. Lista i słownik w DataFrame

OGLĄDAJ » 00:08:28

5.2. getItem oraz size

00:05:21

5.3. lit i explode

00:06:02

5.4. Konkatenacja

00:05:05

5.5. substring

00:05:32

5.6. DateType i TimestampType

00:04:16

5.7. datediff

00:04:56

5.8. date_add/date_sub

00:04:34

5.9. Ekstrakcja danej jednostki czasu

00:04:43

6. Filtrowanie danych 00:37:36

6.1. Unikatowe wiersze

00:08:25

6.2. Filtrowanie danych cz. 1

00:10:47

6.3. Filtrowanie danych cz. 2

00:10:09

6.4. Łączanie warunków

00:08:15

7. Grupowanie danych 00:26:40

7.1. Funkcje agregujące/alias

00:08:26

7.2. Grupowanie danych

00:08:22

7.3. JOIN

00:05:34

7.4. Union/UnionAll

00:04:18

8. Mapowanie i funkcje użytkownika 00:28:34

8.1. Funkcje użytkownika UDF

OGLĄDAJ » 00:07:43

8.2. Funkcja when

00:06:29

8.3. Funkcja map

00:09:47

8.4. Funkcja flatMap

00:04:35

9. Zapisywanie danych do pliku 00:17:48

9.1. Omówienie formatów danych

00:05:24

9.2. Zapis do pliku

00:06:47

9.3. Spark SQL

00:05:37

Obierz kurs na... pracę z dużymi zbiorami danych

Czy znane są Ci nazwy Apache Spark i PySpark? Jeśli pracujesz z danymi i do tej pory nie poznałeś tej technologii, najwyższy czas to nadrobić - na przykład w trakcie proponowanego przez nas szkolenia wideo. Apache Spark to otwarta platforma programistyczna służąca do obliczeń rozproszonych. Opracowana i rozwijana początkowo na Uniwersytecie Kalifornijskim, dziś zarządzana przez Apache Software Foundation, świetnie nadaje się do analizy dużych zbiorów danych. Jej interfejs API, znany jako PySpark, skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData.

W ostatnich latach PySpark stał się najpopularniejszym narzędziem służącym przetwarzaniu danych; może swobodnie zastąpić w tym zakresie SQL czy biblioteki pandas/numpy. Ze Sparka korzystają między innymi Databricks, DeepNote czy JupyterLab. Szczególną cechą i zaletą tego rozwiązania jest to, że umożliwia ono przetwarzanie danych w sposób rozproszony. Nasz kurs pozwala zdobyć bazową wiedzę z zakresu pracy z danymi za pomocą Apache Spark (PySpark). W jego trakcie będziemy przygotowywać dane, selekcjonować je, sortować, agregować, łączyć i grupować, a także stworzymy własne funkcje do mapowania ich i nauczymy się zapisywać je do pliku.

Co Cię czeka podczas naszego profesjonalnego szkolenia

W ramach nauki z proponowanym przez nas kursem między innymi:

Skonfigurujesz środowisko pracy
Dowiesz się, czym jest SparkSession i jak ją uruchomić
Stworzysz podstawową DataFrame
Dokonasz selekcję danych i je posortujesz
Zbudujesz schemat dla danych
Poznasz podstawowe operacje związane z agregacją danych i łączeniem zbiorów w jeden
Przetransformujesz dane za pomocą takich metod jak konkatenacja, rzutowanie czy explode
Wykreujesz własne funkcje dla PySpark
Wykonasz mapowanie
Zapiszesz dane i odczytasz je z pliku - także w formacie parquet

PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL kończy się na poziomie podstawowym. Otrzymana wiedza pozwoli Ci na samodzielne tworzenie pierwszych procesów związanych z transformacją i przetwarzaniem danych. Ułatwi Ci również ich mapowanie i zmianę typów danych. Po ukończeniu szkolenia bez problemu przygotujesz zadania z zakresu ETL.

Apache Spark

Apache Spark jest silnikiem zbudowanym specjalnie w celu przetwarzania danych. Został wyposażony w całą masę służących do tego bibliotek. Co ważne, dane w Sparku można przetwarzać równolegle, co stało się jednym z powodów, dla których technologia ta zdominowała świat big data. Apache Spark obsługuje wiele języków programowania, takich jak SQL, Scala, Python czy R, i pozwala rozwiązywać problemy na różne sposoby z zastosowaniem SQL, transmisji danych i uczenia maszynowego. Przydaje się wszędzie tam, gdzie ilość danych, które wymagają przetworzenia, przekracza możliwości tradycyjnych narzędzi.

Wybrane bestsellery

O autorze kursu video

Piotr Chudzik - absolwent Politechniki Łódzkiej, jego specjalizacja zawodowa to technologie big data oraz administracja nowoczesnymi środowiskami IT (wykorzystującymi między innymi cloud computing, konteneryzację czy IaC - infrastructure as code). Pracuje jako wykładowca na Uniwersytecie Łódzkim, gdzie przekazuje studentom wiedzę na temat Linuksa, baz danych i programowania w języku Python. Jest również trenerem w Software Development Academy. Na co dzień zatrudniony jako menadżer techniczny w dużym zagranicznym banku, odpowiada za prawidłowe i nieprzerwane działanie aplikacji opartych na Google Cloud Platform. Zawsze otwarty na nowe doświadczenia oraz wiedzę, którą w przyszłości mógłby się podzielić z innymi. Interesuje się grami komputerowymi, światem nowych technologii i fantastyką. Jest fanem serii Wiedźmin i uniwersum Warhammera.

Sukces wymaga wcześniejszego przygotowania, bez niego z pewnością osiągniemy porażkę.

Konfucjusz

Piotr Chudzik - pozostałe kursy

Oceny i opinie klientów: PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik (1)

5.0

6 (0)
5 (1)
4 (0)
3 (0)
2 (0)
1 (0)

Bardzo dobry kurs podstaw Pyspark

Opinia: anonimowa Opinia dodana: 2025-09-26 Ocena: 5

Opinia potwierdzona zakupem

Opinia dotyczy produktu: kurs video

Czy opinia była pomocna:

TAK (0) NIE (0)