欢迎来到这里

置顶 |

发表于 2025-07-14 分类于 Intro

如果你现在正在阅读这些文字，说明我的博客已经搭建好了。
正如你所见，这个网站现在正处于起步阶段，看起来非常的简陋。因此，接下来我会逐步完善网页的功能，包括但不限于添加评论，搜索，发表等功能（也有可能鸽掉）。
如果你有任何建议/意见/吐槽，或者发现了bug，请通过以下方式反馈：

github：https://github.com/Omega-98/Omega-98.github.io/issues
email: omega980000@gmail.com
QQ: 2756635010

十分十分十分感谢你的到来和支持 (´,,•ω•,,)♡

《强化学习的数学原理》第二章：状态值和贝尔曼方程

发表于 2025-07-28 分类于 Note

图书：https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning
作者：赵世钰

《强化学习的数学原理》第一章：基本概念

发表于 2025-07-28 分类于 Note

图书：https://github.com/MathFoundationRL/Book-Mathematical-Foundation-of-Reinforcement-Learning
作者：赵世钰
配套课程资源：https://www.bilibili.com/video/BV1sd4y167NS/

基本名词

网格世界 (Grid World)
我们通常用一个网格图来解释和设计强化学习中的概念和算法。网格中包含起点，终点和禁区。我们的目标是让agent通过算法找到从起点到终点的最优路线。
状态 (State)和行为(Action)
我们用$s_n$表示一个状态，$a_n$表示路线的行为。
策略 (Policy)
策略表示agent在某个状态上采取的行动。我们用 $\pi (a_n|s_n) = p (p \in [0,1]) $ 表示采取不同策略的概率分布。
奖励 (Reward)
奖励指人为地设置agent在状态$s$采取行动$a$后获得的赋值，记作 $r(s,a)$。单独的 reward 并不能作为评判路线优劣的标准，因为它只是一个中间值。我们需要从一条路线的总和上来评判 reward。
Trajectories, Returns, and Episodes
Trajectory 用来表示一个 state-action-reward 链。

上图的 trajectory 可以表示成：
$$s_1 \overset{a_2}\rightarrow s_2 \overset{a_3}\rightarrow s_5 \overset{a_3}\rightarrow s_8 \overset{a_2}\rightarrow s_9$$
Return 表示一条 trajectory 获得的 reward 总和。在上例中
$$return = 0+0+0+1 = 1$$
这是一个 finite-length trajectory，又称为Episode。如果我们把这个定义成无限长度的 trajectory，那么$$return = 0+0+0+1+1+1+1+1+… = \infty$$
这发散了，不好。所以我们为每个 reward 加权：
$$discounted \ return = 0 + \gamma 0 + \gamma^2 0 + \gamma^3 1 + \gamma ^4 1 + \gamma^5 1 + …$$
其中$\gamma \in(0,1)$被称作 discounted rate。$\gamma$越接近0，那么后面的 reward赋权就小，得出来的策略就越短视；反之，策略就越长视。

马尔科夫决策过程 (Markov Decision Process, MDP)

集合 (Set)
- State: $S$ 的集合
- Action: $A(s)$ 的集合, 其中 $s \in S$
- Reward: $R(s,a)$ 的集合
概率分布 (Probability Distribution)
- State transition probability: 在$s$执行$a$行为，转到$s’$，记为 $p(s’|s,a)$
- Reward Probability: 记为$p(r|s,a)$
Policy: 在$s$执行$a$的概率记为$\pi (a|s)$
Markov Property: memoryless
$$p(s_{t + 1}|a_{t+1}, s_t, …, a_1, s_0) = p (s_{t + 1}|a_{t + 1}, s_t)$$
$$p(r_{t + 1}|a_{t+1}, s_t, …, a_1, s_0) = p (r_{t + 1}|a_{t + 1}, s_t)$$
此外，MDP 和Markov Process (MP) 的区别是，后者不涉及决策和奖励。

这是一个测试帖子 This Is A Test Journal

发表于 2025-07-17 分类于 Test

数学公式

质能方程

$$\begin{equation} \label{eq1}
e=mc^2
\end{equation}$$

梯度下降公式

$$
\theta_{t+1} = \theta_t - \eta \nabla J(\theta_t)
$$

其中，$\eta$ 是学习率，$\nabla J$ 是梯度。

代码模块

def Start():
  return True

Lab of Omega98

欢迎来到这里

《强化学习的数学原理》第二章：状态值和贝尔曼方程

《强化学习的数学原理》第一章：基本概念

基本名词

马尔科夫决策过程 (Markov Decision Process, MDP)

这是一个测试帖子 This Is A Test Journal

数学公式

质能方程

梯度下降公式

代码模块

分级标题 1

分级标题 2

分级标题 3

分级标题 4

图片插入