Acrobot 双连杆#
Acrobot 是一个双连杆摆动和平衡任务。目标是使用一个电机扭矩摆动双臂并到达目标位置。
任务描述#
双连杆 Acrobot 由一个铰链关节驱动,该关节由单个电机控制。电机安装在肘关节处,这是系统中唯一的驱动关节。电机的扭矩使连杆在平面内旋转,实现从任意初始角度摆起并到达目标位置。扭矩受限于执行器的 ctrlrange;通过调节其大小和方向,策略必须积累能量以摆起并到达目标,同时保持稳定性。
动作空间#
项目 |
详情 |
|---|---|
类型 |
|
维度 |
1 |
观察空间#
项目 |
详情 |
|---|---|
类型 |
|
维度 |
6 |
顺序:upper_arm_horizontal, lower_arm_horizontal, upper_arm_vertical, lower_arm_vertical, shoulder_velocity, elbow_velocity。
奖励函数设计#
基础稀疏奖励:鼓励末端进入目标区域(半径 = 0.2)
持续奖励:在目标区域内每步提供 0.1 的奖励
距离奖励:0.3 * (1.0 - clip(distance / 2.0, 0, 1.0)) 鼓励向目标移动
速度惩罚:0.01 * max(0, velocity_magnitude - 2.0) 惩罚过高的速度
初始状态#
肩关节角度随机于
[-pi, pi]肘关节角度随机于
[-pi, pi]角速度初始化为零
Episode 终止条件#
Episode 长度由
max_episode_seconds限制对观察值进行 NaN 检查
1. 环境预览#
uv run scripts/view.py --env acrobot
2. 开始训练#
# 使用默认参数训练
uv run scripts/train.py --env acrobot
# 自定义并行环境数
uv run scripts/train.py --env acrobot --num-envs 1024
# 开启训练时渲染
uv run scripts/train.py --env acrobot --render
3. 查看训练进度#
uv run tensorboard --logdir runs/acrobot
4. 测试训练结果#
# 自动发现最佳策略(推荐)
uv run scripts/play.py --env acrobot
# 手动指定策略文件
uv run scripts/play.py --env acrobot --policy runs/acrobot/nn/best_policy.pickle
提示:策略会从
runs/acrobot/中自动选择。你可以使用--policy参数覆盖。
配置参数#
环境配置#
@registry.envcfg("acrobot")
@dataclass
class AcrobotEnvCfg(EnvCfg):
model_file: str = model_file
reset_noise_scale: float = 0.1
max_episode_seconds: float = 10.0
render_spacing: float = 2.0
sim_dt: float = 0.01
ctrl_dt: float = 0.02
训练配置(PPO 示例)#
@rlcfg("acrobot", backend="jax")
@dataclass
class AcrobotSkrlPpo(SkrlCfg):
"""Acrobot SKRL configuration with nested structure.
Configuration overrides:
- Network architecture: 32x32 hidden layers for both policy and value
- PPO parameters: 64 rollouts, 5 learning epochs, 8 mini-batches
- Training: 60M timesteps
"""
def __post_init__(self):
"""Configure nested SKRL runner settings."""
runner = self.runner
# Configure model architectures
runner.models.policy.hiddens = [32, 32]
runner.models.value.hiddens = [32, 32]
# Configure PPO agent parameters
agent = runner.agent
agent.rollouts = 64
agent.learning_epochs = 5
agent.mini_batches = 8
agent.learning_rate = 3e-4
agent.grad_norm_clip = 0.1
agent.entropy_loss_scale = 0.1
agent.discount_factor = 0.995
agent.lam = 0.97
agent.ratio_clip = 0.2
agent.value_loss_scale = 0.5
agent.value_clip = 10.0
agent.clip_predicted_values = False
agent.learning_rate_scheduler_kwargs = {"kl_threshold": 0.02}
agent.kl_threshold = 0.03
# Configure training parameters
runner.trainer.timesteps = 29000
预期训练结果#
Acrobot 能够摆动双臂到达目标位置
末端能够稳定地停留在目标区域内
过高的震荡通过速度惩罚得到减少
策略能够以平滑的动作高效地接近目标