奖励函数设计#

奖励函数告诉智能体什么样的行为是期望的，是强化学习环境设计中的核心部分。

奖励函数在训练循环中的位置#

在 MotrixLab 的 NpEnv 中，奖励计算发生在 step 函数的 update_state 阶段：

# NpEnv.step() 的执行流程
def step(self, actions: np.ndarray) -> NpEnvState:
    # 1. 准备阶段：清空奖励和状态
    self._prev_physics_step()  # reward = 0.0, terminated = False, truncated = False

    # 2. 应用动作
    self._state = self.apply_action(actions, self._state)

    # 3. 物理仿真
    self.physics_step()  # 执行物理仿真

    # 4. 更新状态 ← 奖励函数在这里计算
    self._state = self.update_state(self._state)  # 计算奖励和观察值

    # 5. 后续处理
    self._update_truncate()  # 检查时间截断
    self._reset_done_envs()  # 重置完成的环境

    return self._state

您需要在子类的 update_state 方法中实现奖励计算逻辑，具体奖励函数设计思路请参考训练示例。

奖励组件设计原则#

分离关注点：每个奖励函数负责一个特定的目标
权重配置：通过配置文件管理不同组件的权重
归一化：保持奖励值在合理的范围内
平滑性：避免硬性阈值，使用指数函数等平滑过渡

这种方法使得奖励函数模块化，便于调试和调整各个组件的权重。

设计原则#

明确的目标导向：奖励函数应该直接反映任务目标
合理的奖励范围：避免过大或过小的奖励值，保持训练稳定
平衡探索与利用：适当奖励接近目标的行为，避免稀疏奖励
避免奖励漏洞：检查智能体是否可能通过不期望的方式获得高奖励
调试友好：在开发阶段输出奖励分解信息，便于调优

通过在 update_state 方法中正确实现奖励计算，您可以为各种机器人任务设计有效的学习信号。