- Autor:
- Długość
- liczba lekcji: 38, czas trwania: 03:50:54
- Ocena
Kurs video
PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL
- Wydawnictwo:
- Videopoint
- Wersja:
- Online
- Czas trwania:
- 3 godz. 50 min.
- Technologia:
- JupyterLab, Python 3.10, PySpark 3.4
- Ocena:
Spis lekcji kursu video
Opis
kursu video
:
PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL
Obierz kurs na... pracę z dużymi zbiorami danych
Czy znane są Ci nazwy Apache Spark i PySpark? Jeśli pracujesz z danymi i do tej pory nie poznałeś tej technologii, najwyższy czas to nadrobić - na przykład w trakcie proponowanego przez nas szkolenia wideo. Apache Spark to otwarta platforma programistyczna służąca do obliczeń rozproszonych. Opracowana i rozwijana początkowo na Uniwersytecie Kalifornijskim, dziś zarządzana przez Apache Software Foundation, świetnie nadaje się do analizy dużych zbiorów danych. Jej interfejs API, znany jako PySpark, skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData.
W ostatnich latach PySpark stał się najpopularniejszym narzędziem służącym przetwarzaniu danych; może swobodnie zastąpić w tym zakresie SQL czy biblioteki pandas/numpy. Ze Sparka korzystają między innymi Databricks, DeepNote czy JupyterLab. Szczególną cechą i zaletą tego rozwiązania jest to, że umożliwia ono przetwarzanie danych w sposób rozproszony. Nasz kurs pozwala zdobyć bazową wiedzę z zakresu pracy z danymi za pomocą Apache Spark (PySpark). W jego trakcie będziemy przygotowywać dane, selekcjonować je, sortować, agregować, łączyć i grupować, a także stworzymy własne funkcje do mapowania ich i nauczymy się zapisywać je do pliku.
Co Cię czeka podczas naszego profesjonalnego szkolenia
W ramach nauki z proponowanym przez nas kursem między innymi:
- Skonfigurujesz środowisko pracy
- Dowiesz się, czym jest SparkSession i jak ją uruchomić
- Stworzysz podstawową DataFrame
- Dokonasz selekcję danych i je posortujesz
- Zbudujesz schemat dla danych
- Poznasz podstawowe operacje związane z agregacją danych i łączeniem zbiorów w jeden
- Przetransformujesz dane za pomocą takich metod jak konkatenacja, rzutowanie czy explode
- Wykreujesz własne funkcje dla PySpark
- Wykonasz mapowanie
- Zapiszesz dane i odczytasz je z pliku - także w formacie parquet
PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL kończy się na poziomie podstawowym. Otrzymana wiedza pozwoli Ci na samodzielne tworzenie pierwszych procesów związanych z transformacją i przetwarzaniem danych. Ułatwi Ci również ich mapowanie i zmianę typów danych. Po ukończeniu szkolenia bez problemu przygotujesz zadania z zakresu ETL.
Apache Spark
Apache Spark jest silnikiem zbudowanym specjalnie w celu przetwarzania danych. Został wyposażony w całą masę służących do tego bibliotek. Co ważne, dane w Sparku można przetwarzać równolegle, co stało się jednym z powodów, dla których technologia ta zdominowała świat big data. Apache Spark obsługuje wiele języków programowania, takich jak SQL, Scala, Python czy R, i pozwala rozwiązywać problemy na różne sposoby z zastosowaniem SQL, transmisji danych i uczenia maszynowego. Przydaje się wszędzie tam, gdzie ilość danych, które wymagają przetworzenia, przekracza możliwości tradycyjnych narzędzi.
Wybrane bestsellery
Piotr Chudzik - pozostałe książki
Videopoint - inne książki
Dzięki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: [email protected]
Książka drukowana
Oceny i opinie klientów: PySpark. Kurs video. Przetwarzanie i analiza danych w procesach ETL Piotr Chudzik (0) Weryfikacja opinii następuje na podstawie historii zamowień na koncie Użytkownika umiejszczającego opinię.