Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II Maxim Lapan

Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II Maxim Lapan - okladka książki

Zajrzyj do książki

Autor:: Maxim Lapan
Wydawnictwo:: Helion
Wydawnictwo:: Helion
Ocena:: 6.0/6 Opinie: 1
Stron:: 720
Druk:: oprawa miękka
Dostępne formaty::      PDF

     ePub

     Mobi

Czytaj fragment

Książka

96,85 zł ~~149,00 zł~~ (-35%)

96,85 zł najniższa cena z 30 dni

Dodaj do koszyka Darmowa dostawa od 60,00 zł Do darmowej dostawy brakuje Ci 0,00 zł Najtańsza dostawa od 9,90 zł Gratulujemy! Twoje zamówienie kwalifikuje się do darmowej wysyłki. Wysyłamy w 24h

Ebook

74,50 zł ~~149,00 zł~~ (-50%)

74,50 zł najniższa cena z 30 dni

Dodaj do koszyka Dostępny natychmiast po opłaceniu zakupu lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Kup w zestawie z dodatkowym rabatem i zyskaj darmową dostawę

Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II Maxim Lapan

Niezawodne układy elektroniczne. Podręcznik konstruktora Witold Wrotek

Vibe coding i przyszłość kodowania. Od programisty do dewelopera ery AI Addy Osmani

Cena zestawu: 200.68 zł

Zyskujesz: 124.32 zł (-38%)

Dodaj do koszyka

Kup w zestawie z dodatkowym rabatem

Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II Maxim Lapan

Niezawodne układy elektroniczne. Podręcznik konstruktora Witold Wrotek

Vibe coding i przyszłość kodowania. Od programisty do dewelopera ery AI Addy Osmani

Cena zestawu: 151.13 zł

Zyskujesz: 173.87 zł (-53%)

Dodaj do koszyka

Czego się nauczysz?

Podstaw uczenia przez wzmacnianie i jego relacji do uczenia nadzorowanego oraz nienadzorowanego
Stosowania narzędzi OpenAI Gym do tworzenia i testowania środowisk dla agentów
Implementowania głębokich sieci neuronowych w PyTorch na potrzeby uczenia przez wzmacnianie
Wykorzystywania metody entropii krzyżowej oraz Q-uczenia do rozwiązywania problemów decyzyjnych
Budowania i trenowania głębokich sieci Q (DQN) oraz ich rozszerzeń, takich jak Double DQN czy sieci zakłócone
Optymalizowania wydajności trenowania agentów przez równoległe przetwarzanie i narzędzia takie jak CuLE
Stosowania gradientów polityki, algorytmów REINFORCE, A2C, A3C oraz metod aktor-krytyk
Tworzenia i trenowania chatbotów opartych na głębokim uczeniu przez wzmacnianie
Rozwiązywania zadań w środowiskach tekstowych (TextWorld) i automatyzacji działań w przeglądarce internetowej
Pracy z ciągłymi przestrzeniami akcji i deterministycznymi gradientami polityki
Wdrażania uczenia przez wzmacnianie w robotyce, w tym sterowania sprzętem i przenoszenia modeli na urządzenia
Stosowania zaawansowanych algorytmów typu PPO, TRPO, ACKTR i SAC do optymalizacji polityk
Wykorzystywania metod typu "czarna skrzynka", strategii ewolucyjnych i algorytmów genetycznych
Implementowania zaawansowanych technik eksploracji, w tym sieci zakłóconych i eksploracji opartej na liczebności
Trenowania agentów wspomaganych wyobraźnią i porównywania podejść modelowych oraz bezmodelowych
Rozwiązywania problemów optymalizacji dyskretnej, takich jak układanie kostki Rubika, oraz pracy z metodami wieloagentowymi

Głębokie uczenie przez wzmacnianie rozwija się bardzo dynamicznie. Dziedzinę tę charakteryzuje niewyczerpany potencjał rozwiązywania trudnych problemów. Zajmuje się tym co najmniej kilka grup badawczych, koncentrujących się na wdrażaniu głębokiego uczenia przez wzmacnianie w różnych branżach. Niestety, opisy najnowszych osiągnięć są trudne do zrozumienia i zbyt abstrakcyjne, aby można było je łatwo zastosować w praktycznych implementacjach, a przecież poprawne działanie aplikacji jest uwarunkowane gruntownym zrozumieniem problemu przez projektanta.

To zaktualizowane i rozszerzone wydanie bestsellerowego przewodnika po najnowszych narzędziach i metodach związanych z uczeniem przez wzmacnianie. Zawiera wprowadzenie do teorii uczenia przez wzmacnianie, a także wyjaśnia praktyczne sposoby kodowania samouczących się agentów w celu rozwiązywania praktycznych zadań. W tym wydaniu dodano sześć nowych rozdziałów poświęconych takim osiągnięciom technologii jak dyskretna optymalizacja, metody wieloagentowe, środowisko Microsoft TextWorld czy zaawansowane techniki eksploracji. Opisano również inne zagadnienia, między innymi głębokie sieci Q, gradienty polityk, sterowanie ciągłe i wysoce skalowalne metody bezgradientowe. Poszczególne kwestie zostały zilustrowane kodem wraz z opisem szczegółów implementacji.

W książce między innymi:

związki między uczeniem przez wzmacnianie a głębokim uczeniem
różne metody uczenia przez wzmacnianie, w tym entropia krzyżowa, sieć DQN, a także algorytmy: aktor-krytyk, TRPO, PPO, DDPG, D4PG i inne
praktyczne zastosowanie dyskretnej optymalizacji w celu rozwiązania problemu kostki Rubika
trenowanie agentów przy użyciu oprogramowania AlphaGo Zero
chatboty oparte na sztucznej inteligencji
zaawansowane techniki eksploracyjne, w tym metody destylacji sieci

Witaj, świecie prawdziwej sztucznej inteligencji!

Pokaż opis z okładki oryginału »

Książka Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II to zaktualizowana i rozszerzona wersja bestsellerowego przewodnika po najnowszych narzędziach i metodach związanych z uczeniem przez wzmacnianie. Zawiera wprowadzenie do teorii uczenia przez wzmacnianie, a także wyjaśnia praktyczne sposoby kodowania samouczących się agentów w celu rozwiązywania realnych zadań.

Po przeczytaniu tej książki zdobędziesz dodatkową wiedzę dzięki sześciu nowym rozdziałom poświęconym najnowszym osiągnięciom w dziedzinie uczenia przez wzmacnianie, w tym dyskretnej optymalizacji (rozwiązywanie problemu kostki Rubika), metodom wieloagentowym, środowisku Microsoft TextWorld czy zaawansowanym technikom eksploracji.

Ponadto zapoznasz się z takimi zagadnieniami jak głębokie sieci Q, gradienty polityk, sterowanie ciągłe i wysoce skalowalne metody bezgradientowe. Dowiesz się również, jak za mniej niż 400 zł zbudować prawdziwego robota wytrenowanego przy użyciu metody uczenia przez wzmacnianie, a także jak wygrać w grze Pong po zaledwie 30 minutach trenowania przy użyciu metody stopniowego rozwiązywania problemu.

Krótko mówiąc, książka Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II będzie Twoim towarzyszem w ekscytującym świecie sztucznej inteligencji i pomoże Ci zdobyć doświadczenie oraz wiedzę poprzez analizę przykładów ze świata rzeczywistego.

Dzięki tej książce:

Poznasz związki między uczeniem przez wzmacnianie a uczeniem głębokim, a także zaimplementujesz złożone modele uczenia głębokiego.
Przeanalizujesz różne metody uczenia przez wzmacnianie, w tym entropię krzyżową, sieć DQN, a także algorytmy aktor-krytyk, TRPO, PPO, DDPG, D4PG i inne.
Za mniej niż 400 zł zbudujesz prawdziwego robota wytrenowanego za pomocą metod uczenia przez wzmacnianie.
Odkryjesz środowisko Microsoft TextWorld, które jest interaktywną platformą gier fabularnych.
Użyj dyskretnej optymalizacji w uczeniu przez wzmacnianie, aby rozwiązać problem kostki Rubika.
Nauczysz agenta, jak grać w grę Czwórki przy użyciu oprogramowania AlphaGo Zero.
Zapoznasz się z najnowszymi osiągnięciami związanymi z uczeniem przez wzmacnianie, w tym chatbotami opartymi na sztucznej inteligencji.
Odkryjesz zaawansowane techniki eksploracyjne, na przykład sieci zakłócone i metody destylacji sieci.

Wybrane bestsellery

O autorze książki

Maxim Lapan jest niezależnym badaczem z wieloletnim doświadczeniem zawodowym w dziedzinie programowania i architektury systemów. Gruntownie poznał takie zagadnienia jak duże zbiory danych, uczenie maszynowe i rozproszone systemy obliczeniowe o wysokiej wydajności. Obecnie zajmuje się zastosowaniami uczenia głębokiego, w tym głębokim przetwarzaniem języka naturalnego i głębokim uczeniem przez wzmacnianie.

Zobacz pozostałe książki z serii

Ebooka "Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II" przeczytasz na:

czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
systemach Windows, MacOS i innych

systemach Windows, Android, iOS, HarmonyOS
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi

Masz pytania? Zajrzyj do zakładki Pomoc »

Oceny i opinie klientów: Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II Maxim Lapan

(1)

6
(1)
5
(0)
4
(0)
3
(0)
2
(0)
1
(0)

6.0

Opinia dodana w ramach konkursu Zaczytani2024

Moja recenzja opiera się na 1/3 książki i opisuje ją z pozycji studenta datascience. Książka ma dwa oblicza, po pierwsze wymaga konkretnej wiedzy a z drugiej strony czasami ma się wrażenie, że niektóre rzeczy są omówione jak dla laika. To co mnie bardzo się podobało to wykorzystanie PyTorcha. Jeżeli chcecie się pobawić kodem zawartym w książce to przeważnie będzie potrzebne dobre GPU ewentualnie trochę przerwy na kawę/herbate na colabie. Zdarza się też tak, że kod na colabie się wywalał (choć tu pewnie była to wina środowiska) bo na 4070 szedł stosunkowo dobrze. Wracając jednak do samej książki, jest to pozycja bardzo ciekawa (przynajmniej to 1/3 które już przeczytałem) jednak wymaga już pewnego zaplecza. Stąd jeżeli przeczytałeś 1 pozycje i chcesz zacząc tę, to wróć do wcześniejszej przerób ją jeszcze raz a dopiera zabieraj się za tą, bo da Ci to szansę na wyciągnięcie z książki zdecydowanie więcej niż tylko uruchamianie kodu. G01022489492

Rozwiń »

Opinia: anonimowa Opinia dodana: 2024-01-09 Ocena: 6

Opinia potwierdzona zakupem

Opinia dotyczy produktu: ebook

Czy opinia była pomocna:

TAK (0) NIE (0)

Szczegóły książki

Dane producenta: »
Tytuł oryginału:: Deep Reinforcement Learning Hands-On: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more, 2nd Edition
Tłumaczenie:: Jacek Janusz
ISBN Książki drukowanej:: 978-83-283-8052-3, 9788328380523
Data wydania książki drukowanej :: 2022-07-12
ISBN Ebooka:: 978-83-283-8053-0, 9788328380530
Data wydania ebooka :: 2022-07-12 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
Format:: 168x237
Numer z katalogu:: 170624
Rozmiar pliku Pdf:: 30.7MB
Rozmiar pliku ePub:: 24.5MB
Rozmiar pliku Mobi:: 42.5MB
Pobierz przykładowy rozdział PDF »
Przykłady na ftp » 14.3MB

Zgłoś erratę

Kategorie

Kliknij, aby zgłosić błędnie przypisaną kategorię »

Informatyka » Biznes IT » Big data » Uczenie maszynowe

Dostępność produktu

Produkt nie został jeszcze oceniony pod kątem ułatwień dostępu lub nie podano żadnych informacji o ułatwieniach dostępu lub są one niewystarczające. Prawdopodobnie Wydawca/Dostawca jeszcze nie umożliwił dokonania walidacji produktu lub nie przekazał odpowiednich informacji na temat jego dostępności.

Spis treści książki

O autorze

O recenzentach

Wstęp

Rozdział 1. Czym jest uczenie przez wzmacnianie

Uczenie nadzorowane
Uczenie nienadzorowane
Uczenie przez wzmacnianie
Trudności związane z uczeniem przez wzmacnianie
Formalne podstawy uczenia przez wzmacnianie
- Nagroda
- Agent
- Środowisko
- Akcje
- Obserwacje
Teoretyczne podstawy uczenia przez wzmacnianie
- Procesy decyzyjne Markowa
- Polityka
Podsumowanie

Rozdział 2. Zestaw narzędzi OpenAI Gym

Anatomia agenta
Wymagania sprzętowe i programowe
Interfejs API biblioteki OpenAI Gym
- Przestrzeń akcji
- Przestrzeń obserwacji
- Środowisko
- Tworzenie środowiska
- Sesja CartPole
Losowy agent dla środowiska CartPole
Dodatkowa funkcjonalność biblioteki Gym - opakowania i monitory
- Opakowania
- Monitory
Podsumowanie

Rozdział 3. Uczenie głębokie przy użyciu biblioteki PyTorch

Tensory
- Tworzenie tensorów
- Tensory skalarne
- Operacje na tensorach
- Tensory GPU
Gradienty
- Tensory a gradienty
Bloki konstrukcyjne sieci neuronowych
Warstwy definiowane przez użytkownika
Funkcje straty i optymalizatory
- Funkcje straty
- Optymalizatory
Monitorowanie za pomocą narzędzia TensorBoard
- Podstawy obsługi narzędzia TensorBoard
- Narzędzia do tworzenia wykresów
Przykład - użycie sieci GAN z obrazami Atari
Biblioteka PyTorch Ignite
- Zasady działania biblioteki Ignite
Podsumowanie

Rozdział 4. Metoda entropii krzyżowej

Taksonomia metod uczenia przez wzmacnianie
Praktyczne wykorzystanie entropii krzyżowej
Użycie entropii krzyżowej w środowisku CartPole
Użycie metody entropii krzyżowej w środowisku FrozenLake
Teoretyczne podstawy metody entropii krzyżowej
Podsumowanie

Rozdział 5. Uczenie tabelaryczne i równanie Bellmana

Wartość, stan i optymalność
Równanie optymalności Bellmana
Wartość akcji
Metoda iteracji wartości
Wykorzystanie iteracji wartości w praktyce
Q-uczenie w środowisku FrozenLake
Podsumowanie

Rozdział 6. Głębokie sieci Q

Rozwiązywanie realnego problemu z wykorzystaniem metody iteracji wartości
Q-uczenie tabelaryczne
Głębokie Q-uczenie
- Interakcja ze środowiskiem
- Optymalizacja za pomocą stochastycznego spadku wzdłuż gradientu (SGD)
- Korelacja pomiędzy krokami
- Własność Markowa
- Ostateczna wersja procedury trenowania dla głębokich sieci Q
Użycie głębokiej sieci Q w grze Pong
- Opakowania
- Model głębokiej sieci Q
- Trenowanie
- Uruchomienie programu i sprawdzenie jego wydajności
- Użycie modelu
Rzeczy do przetestowania
Podsumowanie

Rozdział 7. Biblioteki wyższego poziomu uczenia przez wzmacnianie

Dlaczego potrzebujemy bibliotek uczenia przez wzmacnianie?
Biblioteka PTAN
- Selektory akcji
- Agent
- Źródło doświadczeń
- Bufory doświadczeń
- Klasa TargetNet
- Klasy upraszczające współpracę z biblioteką Ignite
Rozwiązanie problemu środowiska CartPole za pomocą biblioteki PTAN
Inne biblioteki związane z uczeniem przez wzmacnianie
Podsumowanie

Rozdział 8. Rozszerzenia sieci DQN

Podstawowa, głęboka sieć Q
- Wspólna biblioteka
- Implementacja
- Wyniki
Głęboka sieć Q o n krokach
- Implementacja
- Wyniki
Podwójna sieć DQN
- Implementacja
- Wyniki
Sieci zakłócone
- Implementacja
- Wyniki
Bufor priorytetowy
- Implementacja
- Wyniki
Rywalizujące sieci DQN
- Implementacja
- Wyniki
Kategoryczne sieci DQN
- Implementacja
- Wyniki
Połączenie wszystkich metod
- Wyniki
Podsumowanie
Bibliografia

Rozdział 9. Sposoby przyspieszania metod uczenia przez wzmacnianie

Dlaczego prędkość ma znaczenie?
Model podstawowy
Wykres obliczeniowy w bibliotece PyTorch
Różne środowiska
Granie i trenowanie w oddzielnych procesach
Dostrajanie opakowań
Podsumowanie testów
Rozwiązanie ekstremalne: CuLE
Podsumowanie
Bibliografia

Rozdział 10. Inwestowanie na giełdzie za pomocą metod uczenia przez wzmacnianie

Handel
Dane
Określenie problemu i podjęcie kluczowych decyzji
Środowisko symulujące giełdę
Modele
Kod treningowy
Wyniki
- Model ze sprzężeniem wyprzedzającym
- Model konwolucyjny
Rzeczy do przetestowania
Podsumowanie

Rozdział 11. Alternatywa - gradienty polityki

Wartości i polityka
- Dlaczego polityka?
- Reprezentacja polityki
- Gradienty polityki
Metoda REINFORCE
- Przykład środowiska CartPole
- Wyniki
- Porównanie metod opartych na polityce z metodami opartymi na wartościach
Ograniczenia metody REINFORCE
- Wymagane jest ukończenie epizodu
- Wariancja dużych gradientów
- Eksploracja
- Korelacja danych
Zastosowanie metody gradientu polityki w środowisku CartPole
- Implementacja
- Wyniki
Zastosowanie metody gradientu polityki w środowisku Pong
- Implementacja
- Wyniki
Podsumowanie

Rozdział 12. Metoda aktor-krytyk

Zmniejszenie poziomu wariancji
Wariancja w środowisku CartPole
Aktor-krytyk
Użycie metody A2C w środowisku Pong
- Wyniki użycia metody A2C w środowisku Pong
- Dostrajanie hiperparametrów
Podsumowanie

Rozdział 13. Asynchroniczna wersja metody aktor-krytyk

Korelacja i wydajność próbkowania
Zrównoleglenie metody A2C
Przetwarzanie wieloprocesorowe w języku Python
Algorytm A3C wykorzystujący zrównoleglenie na poziomie danych
- Implementacja
- Wyniki
Algorytm A3C wykorzystujący zrównoleglenie na poziomie gradientów
- Implementacja
- Wyniki
Podsumowanie

Rozdział 14. Trenowanie chatbotów z wykorzystaniem uczenia przez wzmacnianie

Czym są chatboty?
Trenowanie chatbotów
Podstawy głębokiego przetwarzania języka naturalnego
- Rekurencyjne sieci neuronowe
- Osadzanie słów
- Architektura koder-dekoder
Trenowanie modelu koder-dekoder
- Trenowanie z wykorzystaniem logarytmu prawdopodobieństwa
- Algorytm "Bilingual Evaluation Understudy" (BLEU)
- Zastosowanie uczenia przez wzmacnianie w modelu koder-dekoder
- Krytyczna analiza trenowania sekwencji
Projekt chatbota
- Przykładowa struktura
- Moduły cornell.py i data.py
- Wskaźnik BLEU i moduł utils.py
- Model
Eksploracja zbioru danych
Trenowanie - entropia krzyżowa
- Implementacja
- Wyniki
Trenowanie - metoda SCST
- Implementacja
- Wyniki
Przetestowanie modeli przy użyciu danych
Bot dla komunikatora Telegram
Podsumowanie

Rozdział 15. Środowisko TextWorld

Fikcja interaktywna
Środowisko
- Instalacja
- Generowanie gry
- Przestrzenie obserwacji i akcji
- Dodatkowe informacje o grze
Podstawowa sieć DQN
- Wstępne przetwarzanie obserwacji
- Osadzenia i kodery
- Model DQN i agent
- Kod treningowy
- Wyniki trenowania
Model generujący polecenia
- Implementacja
- Wyniki uzyskane po wstępnym trenowaniu
- Kod treningowy sieci DQN
- Wyniki uzyskane po trenowaniu sieci DQN
Podsumowanie

Rozdział 16. Nawigacja w sieci

Nawigacja w sieci
Automatyzacja działań w przeglądarce i uczenie przez wzmacnianie
Test porównawczy MiniWoB
OpenAI Universe
- Instalacja
- Akcje i obserwacje
- Tworzenie środowiska
- Stabilność systemu MiniWoB
Proste klikanie
- Akcje związane z siatką
- Przegląd rozwiązania
- Model
- Kod treningowy
- Uruchamianie kontenerów
- Proces trenowania
- Testowanie wyuczonej polityki
- Problemy występujące podczas prostego klikania
Obserwacje ludzkich działań
- Zapisywanie działań
- Format zapisywanych danych
- Trenowanie z wykorzystaniem obserwacji działań
- Wyniki
- Gra w kółko i krzyżyk
Dodawanie opisów tekstowych
- Implementacja
- Wyniki
Rzeczy do przetestowania
Podsumowanie

Rozdział 17. Ciągła przestrzeń akcji

Dlaczego jest potrzebna ciągła przestrzeń akcji?
- Przestrzeń akcji
- Środowiska
Metoda A2C
- Implementacja
- Wyniki
- Użycie modeli i zapisywanie plików wideo
Deterministyczne gradienty polityki
- Eksploracja
- Implementacja
- Wyniki
- Nagrywanie plików wideo
Dystrybucyjne gradienty polityki
- Architektura
- Implementacja
- Wyniki
- Nagrania wideo
Rzeczy do przetestowania
Podsumowanie

Rozdział 18. Metody uczenia przez wzmacnianie w robotyce

Roboty i robotyka
- Złożoność robota
- Przegląd sprzętu
- Platforma
- Sensory
- Siłowniki
- Szkielet
Pierwszy cel trenowania
Emulator i model
- Plik z definicją modelu
- Klasa robota
Trenowanie zgodnie z algorytmem DDPG i uzyskane wyniki
Sterowanie sprzętem
- MicroPython
- Obsługa czujników
- Sterowanie serwomechanizmami
- Przenoszenie modelu do sprzętu
- Połączenie wszystkiego w całość
Eksperymentowanie z polityką
Podsumowanie

Rozdział 19. Regiony zaufania - PPO, TRPO, ACKTR i SAC

Biblioteka Roboschool
Model bazowy A2C
- Implementacja
- Wyniki
- Nagrywanie plików wideo
Algorytm PPO
- Implementacja
- Wyniki
Algorytm TRPO
- Implementacja
- Wyniki
Algorytm ACKTR
- Implementacja
- Wyniki
Algorytm SAC
- Implementacja
- Wyniki
Podsumowanie

Rozdział 20. Optymalizacja typu "czarna skrzynka" w przypadku uczenia przez wzmacnianie

Metody typu "czarna skrzynka"
Strategie ewolucyjne
- Testowanie strategii ewolucyjnej w środowisku CartPole
- Testowanie strategii ewolucyjnej w środowisku HalfCheetah
Algorytmy genetyczne
- Testowanie algorytmu genetycznego w środowisku CartPole
- Dostrajanie algorytmu genetycznego
- Testowanie algorytmu genetycznego w środowisku HalfCheetah
Podsumowanie
Bibliografia

Rozdział 21. Zaawansowana eksploracja

Dlaczego eksploracja jest ważna?
Co złego jest w metodzie epsilonu zachłannego?
Alternatywne sposoby eksploracji
- Sieci zakłócone
- Metody oparte na liczebności
- Metody oparte na prognozowaniu
Eksperymentowanie w środowisku MountainCar
- Metoda DQN z wykorzystaniem strategii epsilonu zachłannego
- Metoda DQN z wykorzystaniem sieci zakłóconych
- Metoda DQN z licznikami stanów
- Optymalizacja bliskiej polityki
- Metoda PPO z wykorzystaniem sieci zakłóconych
- Metoda PPO wykorzystująca eksplorację opartą na liczebności
- Metoda PPO wykorzystująca destylację sieci
Eksperymentowanie ze środowiskami Atari
- Metoda DQN z wykorzystaniem strategii epsilonu zachłannego
- Klasyczna metoda PPO
- Metoda PPO z wykorzystaniem destylacji sieci
- Metoda PPO z wykorzystaniem sieci zakłóconych
Podsumowanie
Bibliografia

Rozdział 22. Alternatywa dla metody bezmodelowej - agent wspomagany wyobraźnią

Metody oparte na modelu
- Porównanie metody opartej na modelu z metodą bezmodelową
- Niedoskonałości modelu
Agent wspomagany wyobraźnią
- Model środowiskowy
- Polityka wdrożenia
- Koder wdrożeń
- Wyniki zaprezentowane w artykule
Użycie modelu I2A w grze Breakout
- Podstawowy agent A2C
- Trenowanie modelu środowiskowego
- Agent wspomagany wyobraźnią
Wyniki eksperymentów
- Agent podstawowy
- Trenowanie wag modelu środowiskowego
- Trenowanie przy użyciu modelu I2A
Podsumowanie
Bibliografia

Rozdział 23. AlphaGo Zero

Gry planszowe
Metoda AlphaGo Zero
- Wprowadzenie
- Przeszukiwanie drzewa metodą Monte Carlo (MCTS)
- Granie modelu z samym sobą
- Trenowanie i ocenianie
Bot dla gry Czwórki
- Model gry
- Implementacja algorytmu przeszukiwania drzewa metodą Monte Carlo (MCTS)
- Model
- Trenowanie
- Testowanie i porównywanie
Wyniki uzyskane w grze Czwórki
Podsumowanie
Bibliografia

Rozdział 24. Użycie metod uczenia przez wzmacnianie w optymalizacji dyskretnej

Rola uczenia przez wzmacnianie
Kostka Rubika i optymalizacja kombinatoryczna
Optymalność i liczba boska
Sposoby układania kostki
- Reprezentacja danych
- Akcje
- Stany
Proces trenowania
- Architektura sieci neuronowej
- Trenowanie
Aplikacja modelowa
Wyniki
Analiza kodu
- Środowiska kostki
- Trenowanie
- Proces wyszukiwania
Wyniki eksperymentu
- Kostka 2×2
- Kostka 3×3
Dalsze usprawnienia i eksperymenty
Podsumowanie

Rozdział 25. Metoda wieloagentowa

Na czym polega działanie metody wieloagentowej?
- Formy komunikacji
- Użycie uczenia przez wzmacnianie
Środowisko MAgent
- Instalacja
- Przegląd rozwiązania
- Środowisko losowe
Głęboka sieć Q obsługująca tygrysy
- Trenowanie i wyniki
Współpraca między tygrysami
Trenowanie tygrysów i jeleni
Walka pomiędzy równorzędnymi aktorami
Podsumowanie

pokaż cały spis treści

Helion - inne książki

Najczęściej zadawane pytania (FAQ)

1. Czy książka wymaga zaawansowanej znajomości matematyki lub programowania?

Podstawowa znajomość programowania (szczególnie w Pythonie) oraz ogólna orientacja w zagadnieniach matematycznych (algebra liniowa, rachunek prawdopodobieństwa) będą pomocne, ale autor wprowadza czytelnika w niezbędne podstawy i wyjaśnia kluczowe koncepcje krok po kroku.

2. Jakie praktyczne umiejętności zdobędę po przeczytaniu tej książki?

Nauczysz się implementować samouczące się agentów, trenować chatboty, rozwiązywać problemy optymalizacyjne (np. kostka Rubika), stosować uczenie przez wzmacnianie w robotyce i automatyzacji, a także korzystać z popularnych bibliotek (PyTorch, OpenAI Gym).

3. Czy książka zawiera przykłady kodu i instrukcje krok po kroku?

Tak, książka bogata jest w przykłady kodu, szczegółowe opisy implementacji oraz praktyczne projekty, które można samodzielnie przetestować i rozwijać.

4. Czy to wydanie obejmuje najnowsze trendy i narzędzia z zakresu uczenia przez wzmacnianie?

Tak, drugie wydanie zostało zaktualizowane o nowe rozdziały dotyczące m.in. dyskretnej optymalizacji, środowiska Microsoft TextWorld, metod wieloagentowych oraz zaawansowanych technik eksploracyjnych.

5. Czy książka pomoże mi w nauce zastosowania AI w rzeczywistych projektach?

Tak, książka skupia się na praktycznych aspektach wdrażania uczenia przez wzmacnianie w realnych aplikacjach, takich jak chatboty, robotyka, automatyzacja sieci czy gry komputerowe.

6. Czy dostępna jest wersja elektroniczna (e-book) tej książki?

Tak, książka jest dostępna zarówno w wersji drukowanej, jak i elektronicznej (e-book) na Helion.pl.

7. Jakie są najważniejsze biblioteki i narzędzia omawiane w książce?

Autor szczegółowo opisuje pracę z bibliotekami takimi jak PyTorch, OpenAI Gym, PTAN, Microsoft TextWorld oraz narzędziami do monitorowania i wizualizacji postępów treningu agentów.

Zamknij

Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II Maxim Lapan