Opis ebooka: Reinforcement Learning
Reinforcement learning (RL) will deliver one of the biggest breakthroughs in AI over the next decade, enabling algorithms to learn from their environment to achieve arbitrary goals. This exciting development avoids constraints found in traditional machine learning (ML) algorithms. This practical book shows data science and AI professionals how to learn by reinforcement and enable a machine to learn by itself.
Author Phil Winder of Winder Research covers everything from basic building blocks to state-of-the-art practices. You'll explore the current state of RL, focus on industrial applications, learn numerous algorithms, and benefit from dedicated chapters on deploying RL solutions to production. This is no cookbook; doesn't shy away from math and expects familiarity with ML.
- Learn what RL is and how the algorithms help solve problems
- Become grounded in RL fundamentals including Markov decision processes, dynamic programming, and temporal difference learning
- Dive deep into a range of value and policy gradient methods
- Apply advanced RL solutions such as meta learning, hierarchical learning, multi-agent, and imitation learning
- Understand cutting-edge deep RL algorithms including Rainbow, PPO, TD3, SAC, and more
- Get practical examples through the accompanying website
Wybrane bestsellery
-
Nie pamiętasz jakiegoś algorytmu? Nie wiesz, jaką strukturę danych należy zastosować? Nie masz pojęcia, jak wyznaczyć złożoność obliczeniową algorytmu? Nie martw się, Twoje problemy należą już do przeszłości! Tablice informatyczne. Algorytmy pozwolą Ci szybko odnaleźć i przypomnieć sobie podstawo...(6.90 zł najniższa cena z 30 dni)
8.49 zł
17.00 zł(-50%) -
Jeśli chcesz po prostu zrozumieć działanie algorytmów, a nie masz ochoty na mozolne przedzieranie się przez setki trudnych stron, to trzymasz w ręku właściwą książkę! Dzięki temu interesującemu, przystępnemu podręcznikowi szybko przyswoisz sobie najważniejsze pojęcia i łatwo zrozumiesz, w jaki sp...(40.20 zł najniższa cena z 30 dni)
43.55 zł
67.00 zł(-35%) -
This perfectly timed resource provides clear explanations, hands-on examples and practical skills to ingest, parse, index, and query information to build AI applications that produce insightful, high-quality responses grounded in facts.
Building Data-Driven Applications with LlamaIndex. A practical guide to retrieval-augmented generation (RAG) to enhance LLM applications Building Data-Driven Applications with LlamaIndex. A practical guide to retrieval-augmented generation (RAG) to enhance LLM applications
(92.88 zł najniższa cena z 30 dni) -
Poznaj świat programowania w R, języku stworzonym z myślą o statystyce, analizie danych i wizualizacji. Ta kompleksowa książka poprowadzi Cię krok po kroku od zupełnych podstaw aż po zaawansowane techniki, wszystko to w ciągu jednego dnia. Oto, czego się nauczysz: Podstawy języka R: Zrozumi...
Język R w jeden dzień. R od podstaw, po zaawansowane techniki Język R w jeden dzień. R od podstaw, po zaawansowane techniki
-
Data Structures and Algorithms with C++ STL is your guide to mastering the std::vector, memory management, and algorithm intricacies. Learn to navigate complex structures, adaptors, views, advanced algorithms, and much more with practical guidance.
Data Structures and Algorithms with the C++ STL. A guide for modern C++ practitioners Data Structures and Algorithms with the C++ STL. A guide for modern C++ practitioners
-
Książka "Algorytmika dla studenta i technika programisty" to podręcznik, dzięki któremu czytelnik, bez względu na stopień zaawansowania, zrozumie podstawowy myślenia algorytmicznego. Książka wprowadza w tajniki programowania poprzez zrozumienie zasad projektowania metod rozwiązywania prostych jak...
Algorytmika dla studenta i technika programisty INF.04 Algorytmika dla studenta i technika programisty INF.04
(33.90 zł najniższa cena z 30 dni)55.50 zł
74.00 zł(-25%) -
Algorithms play an important role in computing, so a deeper understanding of an algorithm's logic and mathematics is essential. Beyond traditional computing, being able to apply these algorithms to real-world problems is a necessary skill and what this book focuses on.
50 Algorithms Every Programmer Should Know. Tackle computer science challenges with classic to modern algorithms in machine learning, software design, data systems, and cryptography - Second Edition 50 Algorithms Every Programmer Should Know. Tackle computer science challenges with classic to modern algorithms in machine learning, software design, data systems, and cryptography - Second Edition
-
Stoisz przed wyborem przedmiotów maturalnych i jako jeden z nich rozważasz informatykę? To będzie świetna decyzja! Bo tu nie chodzi tylko o samą maturę, naprawdę. Zdać ją oczywiście trzeba, i to zdać dobrze – szczególnie jeśli planujesz kontynuować naukę programowania na studiach – al...
Python na maturze. Kurs video. Algorytmy i podstawy języka. Rozwiązania zadań maturalnych Python na maturze. Kurs video. Algorytmy i podstawy języka. Rozwiązania zadań maturalnych
(39.90 zł najniższa cena z 30 dni)55.60 zł
139.00 zł(-60%) -
Ta książka ułatwi studentom i inżynierom zrozumienie zasad działania algorytmów kryptograficznych następnej generacji. Przedstawiono w niej koncepcje algorytmów symetrycznych i asymetrycznych, jak również omówiono wszystkie nowoczesne techniki uwierzytelniania, przekazywania danych i wyszukiwania...
Algorytmy kryptograficzne. Przewodnik po algorytmach w blockchain, kryptografii kwantowej, protokołach o wiedzy zerowej oraz szyfrowaniu homomorficznym Algorytmy kryptograficzne. Przewodnik po algorytmach w blockchain, kryptografii kwantowej, protokołach o wiedzy zerowej oraz szyfrowaniu homomorficznym
(47.40 zł najniższa cena z 30 dni)51.35 zł
79.00 zł(-35%) -
Ta książka jest kontynuacją bestsellera Programista samouk. Dzięki niej zrozumiesz najważniejsze koncepcje związane z różnymi algorytmami i strukturami danych, a to z kolei pozwoli Ci na profesjonalne podejście do tworzenia kodu. Przystępnie opisano tu różne algorytmy, w tym wyszukiwania linioweg...
Informatyk samouk. Przewodnik po strukturach danych i algorytmach dla początkujących Informatyk samouk. Przewodnik po strukturach danych i algorytmach dla początkujących
(35.40 zł najniższa cena z 30 dni)38.35 zł
59.00 zł(-35%)
Ebooka "Reinforcement Learning" przeczytasz na:
-
czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
-
systemach Windows, MacOS i innych
-
systemach Windows, Android, iOS, HarmonyOS
-
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi
Masz pytania? Zajrzyj do zakładki Pomoc »
Audiobooka "Reinforcement Learning" posłuchasz:
-
w aplikacji Ebookpoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych
-
na dowolnych urządzeniach i aplikacjach obsługujących format MP3 (pliki spakowane w ZIP)
Masz pytania? Zajrzyj do zakładki Pomoc »
Kurs Video "Reinforcement Learning" zobaczysz:
-
w aplikacjach Ebookpoint i Videopoint na Android, iOS, HarmonyOs
-
na systemach Windows, MacOS i innych z dostępem do najnowszej wersji Twojej przeglądarki internetowej
Szczegóły ebooka
- ISBN Ebooka:
- 978-14-920-7234-8, 9781492072348
- Data wydania ebooka:
- 2020-11-06 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
- Język publikacji:
- angielski
- Rozmiar pliku ePub:
- 7.8MB
- Rozmiar pliku Mobi:
- 13.2MB
Spis treści ebooka
- Preface
- Objective
- Who Should Read This Book?
- Guiding Principles and Style
- Prerequisites
- Scope and Outline
- Supplementary Materials
- Conventions Used in This Book
- Acronyms
- Mathematical Notation
- Fair Use Policy
- OReilly Online Learning
- How to Contact Us
- Acknowledgments
- 1. Why Reinforcement Learning?
- Why Now?
- Machine Learning
- Reinforcement Learning
- When Should You Use RL?
- RL Applications
- Taxonomy of RL Approaches
- Model-Free or Model-Based
- How Agents Use and Update Their Strategy
- Discrete or Continuous Actions
- Optimization Methods
- Policy Evaluation and Improvement
- Fundamental Concepts in Reinforcement Learning
- The First RL Algorithm
- Value estimation
- Prediction error
- Weight update rule
- The First RL Algorithm
- Is RL the Same as ML?
- Reward and Feedback
- Delayed rewards
- Hindsight
- Reinforcement Learning as a Discipline
- Summary
- Further Reading
- 2. Markov Decision Processes, Dynamic Programming, and Monte Carlo
Methods
- Multi-Arm Bandit Testing
- Reward Engineering
- Policy Evaluation: The Value Function
- Policy Improvement: Choosing the Best Action
- Simulating the Environment
- Running the Experiment
- Improving the -greedy Algorithm
- Markov Decision Processes
- Inventory Control
- Transition table
- Transition graph
- Transition matrix
- Inventory Control
- Inventory Control Simulation
- Multi-Arm Bandit Testing
- Policies and Value Functions
- Discounted Rewards
- Predicting Rewards with the State-Value Function
- Simulation using the state-value function
- Predicting Rewards with the Action-Value Function
- Optimal Policies
- Monte Carlo Policy Generation
- Value Iteration with Dynamic Programming
- Implementing Value Iteration
- Results of Value Iteration
- Summary
- Further Reading
- 3. Temporal-Difference Learning, Q-Learning, and n-Step Algorithms
- Formulation of Temporal-Difference Learning
- Q-Learning
- SARSA
- Q-Learning Versus SARSA
- Case Study: Automatically Scaling Application Containers to Reduce Cost
- Industrial Example: Real-Time Bidding in Advertising
- Defining the MDP
- Results of the Real-Time Bidding Environments
- Further Improvements
- Formulation of Temporal-Difference Learning
- Extensions to Q-Learning
- Double Q-Learning
- Delayed Q-Learning
- Comparing Standard, Double, and Delayed Q-learning
- Opposition Learning
- n-Step Algorithms
- n-Step Algorithms on Grid Environments
- Eligibility Traces
- Extensions to Eligibility Traces
- Watkinss Q( )
- Fuzzy Wipes in Watkinss Q( )
- Speedy Q-Learning
- Accumulating Versus Replacing Eligibility Traces
- Summary
- Further Reading
- 4. Deep Q-Networks
- Deep Learning Architectures
- Fundamentals
- Common Neural Network Architectures
- Deep Learning Frameworks
- Deep Reinforcement Learning
- Deep Learning Architectures
- Deep Q-Learning
- Experience Replay
- Q-Network Clones
- Neural Network Architecture
- Implementing DQN
- Example: DQN on the CartPole Environment
- Why train online?
- Which is better? DQN versus Q-learning
- Case Study: Reducing Energy Usage in Buildings
- Rainbow DQN
- Distributional RL
- Prioritized Experience Replay
- Noisy Nets
- Dueling Networks
- Example: Rainbow DQN on Atari Games
- Results
- Discussion
- Other DQN Improvements
- Improving Exploration
- Improving Rewards
- Learning from Offline Data
- Summary
- Further Reading
- 5. Policy Gradient Methods
- Benefits of Learning a Policy Directly
- How to Calculate the Gradient of a Policy
- Policy Gradient Theorem
- Policy Functions
- Linear Policies
- Logistic policy
- Softmax policy
- Linear Policies
- Arbitrary Policies
- Basic Implementations
- Monte Carlo (REINFORCE)
- Example: REINFORCE on the CartPole environment
- Monte Carlo (REINFORCE)
- REINFORCE with Baseline
- Example: REINFORCE with baseline on the CartPole environment
- Gradient Variance Reduction
- n-Step Actor-Critic and Advantage Actor-Critic (A2C)
- Example: n-step actor-critic on the CartPole environment
- State-value learning decay rates versus policy decay rates
- Eligibility Traces Actor-Critic
- Example: Eligibility trace actor-critic on the CartPole environment
- A Comparison of Basic Policy Gradient Algorithms
- Industrial Example: Automatically Purchasing Products for Customers
- The Environment: Gym-Shopping-Cart
- Expectations
- Results from the Shopping Cart Environment
- Summary
- Further Reading
- 6. Beyond Policy Gradients
- Off-Policy Algorithms
- Importance Sampling
- Behavior and Target Policies
- Off-Policy Q-Learning
- Gradient Temporal-Difference Learning
- Greedy-GQ
- Off-Policy Actor-Critics
- Off-Policy Algorithms
- Deterministic Policy Gradients
- Deterministic Policy Gradients
- Deep Deterministic Policy Gradients
- DDPG derivation
- DDPG implementation
- Twin Delayed DDPG
- Delayed policy updates (DPU)
- Clipped double Q-learning (CDQ)
- Target policy smoothing (TPS)
- TD3 implementation
- Case Study: Recommendations Using Reviews
- Improvements to DPG
- Trust Region Methods
- KullbackLeibler Divergence
- KL divergence experiments
- KullbackLeibler Divergence
- Natural Policy Gradients and Trust Region Policy Optimization
- Proximal Policy Optimization
- PPOs clipped objective
- PPOs value function and exploration objectives
- Example: Using Servos for a Real-Life Reacher
- Experiment Setup
- RL Algorithm Implementation
- Increasing the Complexity of the Algorithm
- Hyperparameter Tuning in a Simulation
- Resulting Policies
- Other Policy Gradient Algorithms
- Retrace( )
- Actor-Critic with Experience Replay (ACER)
- Actor-Critic Using Kronecker-Factored Trust Regions (ACKTR)
- Emphatic Methods
- Extensions to Policy Gradient Algorithms
- Quantile Regression in Policy Gradient Algorithms
- Summary
- Which Algorithm Should I Use?
- A Note on Asynchronous Methods
- Further Reading
- 7. Learning All Possible Policies with
Entropy Methods
- What Is Entropy?
- Maximum Entropy Reinforcement Learning
- Soft Actor-Critic
- SAC Implementation Details and Discrete Action Spaces
- Automatically Adjusting Temperature
- Case Study: Automated Traffic Management to Reduce Queuing
- Extensions to Maximum Entropy Methods
- Other Measures of Entropy (and Ensembles)
- Optimistic Exploration Using the Upper Bound of Double Q-Learning
- Tinkering with Experience Replay
- Soft Policy Gradient
- Soft Q-Learning (and Derivatives)
- Path Consistency Learning
- Performance Comparison: SAC Versus PPO
- How Does Entropy Encourage Exploration?
- How Does the Temperature Parameter Alter Exploration?
- Industrial Example: Learning to Drive with a Remote Control Car
- Description of the Problem
- Minimizing Training Time
- Dramatic Actions
- Hyperparameter Search
- Final Policy
- Further Improvements
- Summary
- Equivalence Between Policy Gradients and Soft Q-Learning
- What Does This Mean For the Future?
- What Does This Mean Now?
- 8. Improving How an Agent Learns
- Rethinking the MDP
- Partially Observable Markov Decision Process
- Predicting the belief state
- Partially Observable Markov Decision Process
- Case Study: Using POMDPs in Autonomous Vehicles
- Contextual Markov Decision Processes
- MDPs with Changing Actions
- Regularized MDPs
- Rethinking the MDP
- Hierarchical Reinforcement Learning
- Naive HRL
- High-Low Hierarchies with Intrinsic Rewards (HIRO)
- Learning Skills and Unsupervised RL
- Using Skills in HRL
- HRL Conclusions
- Multi-Agent Reinforcement Learning
- MARL Frameworks
- Centralized or Decentralized
- Single-Agent Algorithms
- Case Study: Using Single-Agent Decentralized Learning in UAVs
- Centralized Learning, Decentralized Execution
- Decentralized Learning
- Other Combinations
- Challenges of MARL
- MARL Conclusions
- Expert Guidance
- Behavior Cloning
- Imitation RL
- Inverse RL
- Curriculum Learning
- Other Paradigms
- Meta-Learning
- Transfer Learning
- Summary
- Further Reading
- 9. Practical Reinforcement Learning
- The RL Project Life Cycle
- Life Cycle Definition
- Data science life cycle
- Reinforcement learning life cycle
- Life Cycle Definition
- The RL Project Life Cycle
- Problem Definition: What Is an RL Project?
- RL Problems Are Sequential
- RL Problems Are Strategic
- Low-Level RL Indicators
- An entity
- An environment
- A state
- An action
- Quantify success or failure
- Types of Learning
- Online learning
- Offline or batch learning
- Concurrent learning
- Reset-free learning
- RL Engineering and Refinement
- Process
- Environment Engineering
- Implementation
- Simulation
- Interacting with real life
- State Engineering or State Representation Learning
- Learning forward models
- Constraints
- Transformation (dimensionality reduction, autoencoders, and world models)
- Policy Engineering
- Discrete states
- Continuous states
- Converting to discrete states
- Mixed state spaces
- Mapping Policies to Action Spaces
- Binary actions
- Continuous actions
- Hybrid action spaces
- When to perform actions
- Massive action spaces
- Exploration
- Is intrinsic motivation exploration?
- Visitation counts (sampling)
- Information gain (surprise)
- State prediction (curiosity or self-reflection)
- Curious challenges
- Random embeddings (random distillation networks)
- Distance to novelty (episodic curiosity)
- Exploration conclusions
- Reward Engineering
- Reward engineering guidelines
- Reward shaping
- Common rewards
- Reward conclusions
- Summary
- Further Reading
- 10. Operational Reinforcement Learning
- Implementation
- Frameworks
- RL frameworks
- Other frameworks
- Frameworks
- Scaling RL
- Distributed training (Gorila)
- Single-machine training (A3C, PAAC)
- Distributed replay (Ape-X)
- Synchronous distribution (DD-PPO)
- Improving utilization (IMPALA, SEED)
- Scaling conclusions
- Implementation
- Evaluation
- Policy performance measures
- Statistical policy comparisons
- Algorithm performance measures
- Problem-specific performance measures
- Explainability
- Evaluation conclusions
- Deployment
- Goals
- Goals during different phases of development
- Best practices
- Hierarchy of needs
- Goals
- Architecture
- Ancillary Tooling
- Build versus buy
- Monitoring
- Logging and tracing
- Continuous integration and continuous delivery
- Experiment tracking
- Hyperparameter tuning
- Deploying multiple agents
- Deploying policies
- Safety, Security, and Ethics
- Safe RL
- Secure RL
- Ethical RL
- Summary
- Further Reading
- 11. Conclusions and the Future
- Tips and Tricks
- Framing the Problem
- Your Data
- Training
- Evaluation
- Deployment
- Tips and Tricks
- Debugging
- ${ALGORITHM_NAME} Cant Solve ${ENVIRONMENT}!
- Monitoring for Debugging
- The Future of Reinforcement Learning
- RL Market Opportunities
- Future RL and Research Directions
- Research in industry
- Research in academia
- Ethical standards
- Concluding Remarks
- Next Steps
- Now Its Your Turn
- Further Reading
- A. The Gradient of a Logistic Policy for Two Actions
- B. The Gradient of a Softmax Policy
- Glossary
- Acronyms and Common Terms
- Symbols and Notation
- Index
O'Reilly Media - inne książki
-
JavaScript gives web developers great power to create rich interactive browser experiences, and much of that power is provided by the browser itself. Modern web APIs enable web-based applications to come to life like never before, supporting actions that once required browser plug-ins. Some are s...(186.15 zł najniższa cena z 30 dni)
186.15 zł
219.00 zł(-15%) -
How will software development and operations have to change to meet the sustainability and green needs of the planet? And what does that imply for development organizations? In this eye-opening book, sustainable software advocates Anne Currie, Sarah Hsu, and Sara Bergman provide a unique overview...(160.65 zł najniższa cena z 30 dni)
177.65 zł
209.00 zł(-15%) -
OpenTelemetry is a revolution in observability data. Instead of running multiple uncoordinated pipelines, OpenTelemetry provides users with a single integrated stream of data, providing multiple sources of high-quality telemetry data: tracing, metrics, logs, RUM, eBPF, and more. This practical gu...(143.65 zł najniższa cena z 30 dni)
152.15 zł
179.00 zł(-15%) -
Interested in developing embedded systems? Since they don't tolerate inefficiency, these systems require a disciplined approach to programming. This easy-to-read guide helps you cultivate good development practices based on classic software design patterns and new patterns unique to embedded prog...(152.15 zł najniższa cena z 30 dni)
160.65 zł
189.00 zł(-15%) -
If you use Linux in your day-to-day work, then Linux Pocket Guide is the perfect on-the-job reference. This thoroughly updated 20th anniversary edition explains more than 200 Linux commands, including new commands for file handling, package management, version control, file format conversions, an...(92.65 zł najniższa cena z 30 dni)
101.15 zł
119.00 zł(-15%) -
Gain the valuable skills and techniques you need to accelerate the delivery of machine learning solutions. With this practical guide, data scientists, ML engineers, and their leaders will learn how to bridge the gap between data science and Lean product delivery in a practical and simple way. Dav...(245.65 zł najniższa cena z 30 dni)
245.65 zł
289.00 zł(-15%) -
This practical book provides a detailed explanation of the zero trust security model. Zero trust is a security paradigm shift that eliminates the concept of traditional perimeter-based security and requires you to "always assume breach" and "never trust but always verify." The updated edition off...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Decentralized finance (DeFi) is a rapidly growing field in fintech, having grown from $700 million to $100 billion over the past three years alone. But the lack of reliable information makes this area both risky and murky. In this practical book, experienced securities attorney Alexandra Damsker ...(203.15 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%) -
Whether you're a startup founder trying to disrupt an industry or an entrepreneur trying to provoke change from within, your biggest challenge is creating a product people actually want. Lean Analytics steers you in the right direction.This book shows you how to validate your initial idea, find t...(126.65 zł najniższa cena z 30 dni)
126.65 zł
149.00 zł(-15%) -
When it comes to building user interfaces on the web, React enables web developers to unlock a new world of possibilities. This practical book helps you take a deep dive into fundamental concepts of this JavaScript library, including JSX syntax and advanced patterns, the virtual DOM, React reconc...(194.65 zł najniższa cena z 30 dni)
211.65 zł
249.00 zł(-15%)
Dzieki opcji "Druk na żądanie" do sprzedaży wracają tytuły Grupy Helion, które cieszyły sie dużym zainteresowaniem, a których nakład został wyprzedany.
Dla naszych Czytelników wydrukowaliśmy dodatkową pulę egzemplarzy w technice druku cyfrowego.
Co powinieneś wiedzieć o usłudze "Druk na żądanie":
- usługa obejmuje tylko widoczną poniżej listę tytułów, którą na bieżąco aktualizujemy;
- cena książki może być wyższa od początkowej ceny detalicznej, co jest spowodowane kosztami druku cyfrowego (wyższymi niż koszty tradycyjnego druku offsetowego). Obowiązująca cena jest zawsze podawana na stronie WWW książki;
- zawartość książki wraz z dodatkami (płyta CD, DVD) odpowiada jej pierwotnemu wydaniu i jest w pełni komplementarna;
- usługa nie obejmuje książek w kolorze.
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka, którą chcesz zamówić pochodzi z końcówki nakładu. Oznacza to, że mogą się pojawić drobne defekty (otarcia, rysy, zagięcia).
Co powinieneś wiedzieć o usłudze "Końcówka nakładu":
- usługa obejmuje tylko książki oznaczone tagiem "Końcówka nakładu";
- wady o których mowa powyżej nie podlegają reklamacji;
Masz pytanie o konkretny tytuł? Napisz do nas: sklep[at]helion.pl.
Książka drukowana
Oceny i opinie klientów: Reinforcement Learning Phil Winder Ph. D. (0) Weryfikacja opinii następuję na podstawie historii zamówień na koncie Użytkownika umieszczającego opinię. Użytkownik mógł otrzymać punkty za opublikowanie opinii uprawniające do uzyskania rabatu w ramach Programu Punktowego.