6 MDP - 搜索

约 10,400,000 个结果

在新选项卡中打开链接

时间不限

csdn.net
https://blog.csdn.net › november_chopin › article › details
强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）-CSDN博客
强化学习任务通常使用马尔可夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时 ...
csdn.net
https://blog.csdn.net › article › details
强化学习——马尔可夫决策过程（MDP）【附 python 代码】
2024年7月22日 · 马尔可夫过程也被称为马尔可夫链，通常用元组. < S , P > <S,P> <S,P> 来描述，其中 S 是有限数量的状态集合，P 是状态转移矩阵。假设有 n 个状态，则. 矩阵 P 中第 i 行第 j 列元素. P ( s ′ ∣ s ) P (s'|s) P (s′∣s) 为状态转移函数。从某个状态出发，到达其他状态的概率和必须为 1 。即状态转移矩阵 P 的每一行和为 1 。 [ 0 , 1 ] [0,1] [0,1] 。引入折扣因子是因为远期利益具有一定的不确定性，有时希望能尽快获得有些奖励，所以需要对远期利益打一些折扣。接 …
csdn.net
https://blog.csdn.net › article › details
马尔科夫决策过程（Markov Decision Process, MDP）、以及它的 …
2024年12月17日 · 马尔科夫决策过程（mdp）是数学上描述决策问题的一种模型。它被广泛应用于强化学习、运筹学、控制系统和经济学等领域。 MDP 用来解决带有不确定性和动态性的序列决策问题。
wikipedia.org
https://zh.m.wikipedia.org › wiki › 馬可夫決策過程
馬可夫決策過程 - 维基百科，自由的百科全书
在數學中，馬可夫決策過程（英語： Markov decision process， MDP）是離散時間隨機控制過程。它提供了一個數學框架，用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知； [1] 一個對馬可夫決策過程的核心研究是羅納德·霍華德（英语：Ronald A. Howard）於1960年出版的《動態規劃和馬可夫過程》 [2]。它們被用於許多領域，包括機器人學，自動化，經濟 …
cnblogs.com
https://www.cnblogs.com
马尔科夫决策过程MDP——Agent的强化学习逻辑 - 郝hai - 博客园
2024年6月13日 · 马尔科夫决策过程（Markov Decision Process, MDP）是一个用于建模和解决序列决策问题的数学框架，尤其适用于在不确定环境下的决策。由于其简单性、动态特性和强大的理论基础，MDP在人工智能（AI）领域的应用变得尤为重要。
wikipedia.org
https://en.m.wikipedia.org › wiki › Markov_decision_process
Markov decision process - Wikipedia
Markov decision process (MDP), also called a stochastic dynamic program or stochastic control problem, is a model for sequential decision making when outcomes are uncertain. [ 1 ] Originating from operations research in the 1950s, [ 2 ] [ 3 ] MDPs have since gained recognition in a variety of fields, including ecology , economics , healthcare ...
zhihu.com
https://zhuanlan.zhihu.com
强化学习入门第一讲 MDP - 知乎 - 知乎专栏
无数学者们通过几十年不断地努力和探索，提出了一套可以解决大部分强化学习问题的框架，这个框架就是马尔科夫决策过程，简称MDP。下面我们会循序渐进地介绍马尔科夫决策过程：先介绍马尔科夫性，再介绍马尔科夫过程，最后介绍马尔科夫决策过程。第一个概念是马尔科夫性：所谓马尔科夫性是指系统的下一个状态 s_ {t+1} 仅与当前状态 s_t 有关，而与以前的状态无关。定义：状态 s_t 是马尔科夫的，当且仅当 \ [ P\left [s_ {t+1}|s_t\right]=P\left [s_ {t+1}|s_1,\cdots …
mit.edu
https://introml.mit.edu › notes › mdp.html
10 Markov Decision Processes – 6.390 - Intro to Machine Learning
Markov decision process (mdp) is precisely such a classical and fundamental tool. Formally, a Markov decision process is S, A, T, R, γ where S is the state space, A is the action space, and: γ ∈ [0, 1] is a discount factor, which we’ll discuss in Section [sec-discount]. In this class, we assume the rewards are deterministic functions.
mit.edu
https://ocw.mit.edu › courses
[PDF]
Markov Decision Processes - MIT OpenCourseWare
We’ll start by laying out the basic framework, then look at Markov chains, which are a simple case. Then we’ll explore what it means to have an optimal plan for an MDP, and look at an algorithm, called value iteration, for finding optimal plans.
geeksforgeeks.org
https://www.geeksforgeeks.org › what-is-markov-decision-process-mdp...
Markov Decision Process (MDP) in Reinforcement Learning
2025年2月24日 · MDPs provide a formalism for modeling decision-making in situations where outcomes are uncertain, making them essential for reinforcement learning. An MDP is defined by a tuple (S, A, P, R, \gamma) (S,A,P,R,γ) where: S (State Space): A finite or infinite set of states representing the environment.
某些结果已被删除
分页
- 1
- 2
- 3
- 4
- 下一页

强化学习 1 —— 一文读懂马尔科夫决策过程（MDP）-CSDN博客

强化学习——马尔可夫决策过程（MDP）【附 python 代码】

马尔科夫决策过程（Markov Decision Process, MDP）、以及它的 …

馬可夫決策過程 - 维基百科，自由的百科全书

马尔科夫决策过程MDP——Agent的强化学习逻辑 - 郝hai - 博客园

Markov decision process - Wikipedia

强化学习入门第一讲 MDP - 知乎 - 知乎专栏

10 Markov Decision Processes – 6.390 - Intro to Machine Learning

Markov Decision Processes - MIT OpenCourseWare

Markov Decision Process (MDP) in Reinforcement Learning