ODBIERZ TWÓJ BONUS :: »

Ekstrakcja danych z językiem Python. Pozyskiwanie danych z internetu. Wydanie II Ryan Mitchell

Autor:
Ryan Mitchell
Wydawnictwo:
Helion
Wydawnictwo:
Helion
Ocena:
2.0/6  Opinie: 4
Stron:
272
Druk:
oprawa miękka
Dostępne formaty:
     PDF
     ePub
     Mobi
Czytaj fragment
Książka
59,00 zł
Powiadom mnie, gdy książka będzie dostępna

Ebook
59,00 zł

Dodaj do koszyka lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Czego się nauczysz?

  • Tworzenia robotów indeksujących z użyciem bibliotek BeautifulSoup i Scrapy
  • Analizy i przetwarzania struktury HTML oraz nawigowania po drzewie DOM
  • Stosowania wyrażeń regularnych do wydobywania danych z kodu strony
  • Pełzania po pojedynczych domenach i całych witrynach internetowych
  • Planowania i definiowania modeli ekstrakcji danych dla różnych typów stron
  • Przechowywania danych w plikach CSV, bazach MySQL i plikach multimedialnych
  • Odczytywania i przetwarzania plików tekstowych, CSV, PDF i DOCX
  • Oczyszczania i normalizacji danych przy użyciu narzędzi takich jak OpenRefine
  • Analizy tekstu i przetwarzania języka naturalnego z wykorzystaniem NLTK
  • Obsługi formularzy, logowania i uwierzytelniania HTTP w Pythonie
  • Ekstrakcji danych z dynamicznych stron wykorzystujących JavaScript i Selenium
  • Pozyskiwania danych poprzez interfejsy API, w tym obsługi nieudokumentowanych API
  • Przetwarzania obrazów i rozpoznawania tekstu (OCR) za pomocą Tesseract i Pillow
  • Unikania zabezpieczeń antybotowych oraz etycznych aspektów ekstrakcji
  • Testowania witryn internetowych i automatyzacji testów z użyciem unittest i Selenium
  • Zrównoleglania procesu ekstrakcji danych z użyciem wątków i procesów
  • Wdrażania zdalnej ekstrakcji danych przy użyciu serwerów, proxy i narzędzi typu Tor
  • Analizowania kwestii prawnych i etycznych związanych z web scrapingiem

Ekstrakcję danych (ang. web scraping), zwaną też wydobywaniem danych z zasobów internetu, wiele osób postrzega jako wyższy stopień wtajemniczenia: przy niewielkim wysiłku można uzyskać imponujące wyniki i wykorzystać je w różnoraki sposób. Nie dziwi więc, że wokół tej dziedziny narosło mnóstwo mitów. Wątpliwości jest wiele, począwszy od legalności tego rodzaju praktyk, skończywszy na właściwościach różnych narzędzi. W praktyce na ekstrakcję danych składa się cały szereg zróżnicowanych technik i technologii, takich jak analiza danych, analiza składniowa języka naturalnego, a także zabezpieczenie informacji. Aby w pełni wykorzystać ich zalety, konieczne jest zrozumienie sposobu, w jaki funkcjonują.

Ta książka jest znakomitym przewodnikiem po technikach pozyskiwania danych z internetu. Przedstawiono tu również zasady gromadzenia, przekształcania i wykorzystywania danych z różnych zasobów. W kontekście ekstrakcji danych omówiono zagadnienia związane z bazami danych, serwerami sieciowymi, protokołem HTTP, językiem HTML, bezpieczeństwem sieciowym, przetwarzaniem obrazów, analizą danych i wieloma innymi kwestiami. Zaprezentowane tu rozwiązania programistyczne zostały napisane w Pythonie. Nie zabrakło też omówienia bibliotek przydatnych w pracy osób tworzących roboty indeksujące. Dzięki tej książce szybko zaczniesz pozyskiwać i w dowolny sposób wykorzystywać posiadane dane. Już dziś te rozwiązania są stosowane w prognozowaniu rynkowym, tłumaczeniu maszynowym, a nawet w diagnostyce medycznej!

Najważniejsze zagadnienia:

  • korzystanie z platformy Scrapy do tworzenia robotów
  • metody odczytu, wydobywania i przechowywania pozyskiwanych danych
  • oczyszczanie i normalizacja danych
  • interfejsy API
  • przetwarzanie obrazów na tekst
  • testowanie witryn za pomocą robotów

Wyszukuj dane, gromadź je i korzystaj z nich do woli!

Wybrane bestsellery

O autorze książki

Ryan Mitchell - jest starszą inżynier oprogramowania w firmie HedgeServ (Boston), gdzie zajmuje się tworzeniem interfejsu API przedsiębiorstwa i narzędzi do analizy danych. Ukończyła uczelnię Olin College of Engineering, a także Harvard University Extension School z tytułem magistra inżynierii oprogramowania oraz certyfikat studiów podyplomowych na kierunku analiza danych. Przed dołączeniem do firmy HedgeServ zajmowała się pisaniem robotów indeksujących i narzędzi automatyzacji w przedsiębiorstwie Abine. Zajmuje się również doradztwem na temat ekstrakcji danych w branży detalicznej, finansowej i farmaceutycznej, ponadto była konsultantką ds. programu nauczania i wykładowczynią kontraktową na Uniwersytecie Północnozachodnim i uczelni Olin College of Engineering.

Zobacz pozostałe książki z serii

Helion - inne książki

Najczęściej zadawane pytania (FAQ)
1. Czy książka ,,Ekstrakcja danych z językiem Python. Pozyskiwanie danych z internetu. Wydanie II" zawiera praktyczne przykłady kodu?
Tak, książka prezentuje liczne przykłady kodu w języku Python, ilustrujące techniki ekstrakcji danych, korzystanie z bibliotek takich jak BeautifulSoup, Scrapy, Requests czy Selenium oraz integrację z bazami danych.
2. Czy do korzystania z książki potrzebuję wcześniejszego doświadczenia w programowaniu w Pythonie?
Podstawowa znajomość Pythona będzie pomocna, jednak książka wprowadza czytelnika w niezbędne zagadnienia i narzędzia krok po kroku, co ułatwia naukę nawet osobom na poziomie początkującym.
3. Jakie narzędzia i biblioteki są omawiane w książce?
W publikacji szczegółowo omówiono m.in. BeautifulSoup, Scrapy, Requests, Selenium, Pillow, Tesseract, OpenRefine oraz narzędzia do pracy z bazami danych i przetwarzania tekstu (np. NLTK).
4. Czy książka porusza kwestie legalności i etyki web scrapingu?
Tak, jeden z rozdziałów poświęcony jest zagadnieniom prawnym i etycznym związanym z ekstrakcją danych, w tym prawom autorskim, plikowi robots.txt i praktykom zgodnym z obowiązującym prawem.
5. Czy dzięki tej książce nauczę się pozyskiwać dane z różnych typów stron internetowych, także zabezpieczonych lub dynamicznych?
Tak, książka pokazuje, jak radzić sobie z różnymi typami stron, w tym dynamicznymi (JavaScript), zabezpieczonymi formularzami oraz jak korzystać z interfejsów API i przetwarzać dane z różnych formatów plików.
6. Czy publikacja obejmuje zagadnienia związane z automatyzacją i testowaniem procesów ekstrakcji danych?
Tak, osobny rozdział poświęcony jest testowaniu witryn za pomocą robotów indeksujących oraz automatyzacji zadań, w tym wielowątkowości i uruchamianiu procesów na serwerach zdalnych.
7. Czy książka jest aktualna względem najnowszych narzędzi i technologii?
To drugie, zaktualizowane wydanie, które uwzględnia bieżące trendy, nowe biblioteki i aktualizacje narzędzi wykorzystywanych w web scrapingu z użyciem Pythona.
8. Czy publikacja dostępna jest w wersji elektronicznej (e-book)?
Tak, książka jest dostępna zarówno w wersji papierowej, jak i elektronicznej (e-book) na Helion.pl.

Zamknij

Przenieś na półkę
Dodano produkt na półkę
Usunięto produkt z półki
Przeniesiono produkt do archiwum
Przeniesiono produkt do biblioteki

Zamknij

Wybierz metodę płatności

Książka
59,00 zł
Czasowo niedostępna
Ebook
59,00 zł
Dodaj do koszyka
Płatności obsługuje:
Ikona płatności Alior Bank Ikona płatności Apple Pay Ikona płatności Bank PEKAO S.A. Ikona płatności Bank Pocztowy Ikona płatności Banki Spółdzielcze Ikona płatności BLIK Ikona płatności Crédit Agricole e-przelew Ikona płatności dawny BNP Paribas Bank Ikona płatności Google Pay Ikona płatności ING Bank Śląski Ikona płatności Inteligo Ikona płatności iPKO Ikona płatności Millennium Ikona płatności mTransfer Ikona płatności Nest Bank Ikona płatności Paypal Ikona płatności PayPo | PayU Płacę później Ikona płatności PayU Płacę później Ikona płatności Plus Bank Ikona płatności Płacę z Citi Handlowy Ikona płatności Płacę z Getin Bank Ikona płatności Płać z BOŚ Ikona płatności Płatność online kartą płatniczą Ikona płatności Santander Ikona płatności Visa Mobile