Acrobot 双连杆#

Acrobot 是一个双连杆摆动和平衡任务。目标是使用一个电机扭矩摆动双臂并到达目标位置。

任务描述#

双连杆 Acrobot 由一个铰链关节驱动，该关节由单个电机控制。电机安装在肘关节处，这是系统中唯一的驱动关节。电机的扭矩使连杆在平面内旋转，实现从任意初始角度摆起并到达目标位置。扭矩受限于执行器的 ctrlrange；通过调节其大小和方向，策略必须积累能量以摆起并到达目标，同时保持稳定性。

动作空间#

项目	详情
类型	`Box(-1.0, 1.0, (1,), float32)`
维度	1

观察空间#

项目	详情
类型	`Box(-inf, inf, (6,), float32)`
维度	6

顺序：upper_arm_horizontal, lower_arm_horizontal, upper_arm_vertical, lower_arm_vertical, shoulder_velocity, elbow_velocity。

奖励函数设计#

基础稀疏奖励：鼓励末端进入目标区域（半径 = 0.2）
持续奖励：在目标区域内每步提供 0.1 的奖励
距离奖励：0.3 * (1.0 - clip(distance / 2.0, 0, 1.0)) 鼓励向目标移动
速度惩罚：0.01 * max(0, velocity_magnitude - 2.0) 惩罚过高的速度

初始状态#

肩关节角度随机于 [-pi, pi]
肘关节角度随机于 [-pi, pi]
角速度初始化为零

Episode 终止条件#

Episode 长度由 max_episode_seconds 限制
对观察值进行 NaN 检查

1. 环境预览#

uv run scripts/view.py --env acrobot

2. 开始训练#

# 使用默认参数训练
uv run scripts/train.py --env acrobot

# 自定义并行环境数
uv run scripts/train.py --env acrobot --num-envs 1024

# 开启训练时渲染
uv run scripts/train.py --env acrobot --render

3. 查看训练进度#

uv run tensorboard --logdir runs/acrobot

4. 测试训练结果#

# 自动发现最佳策略（推荐）
uv run scripts/play.py --env acrobot

# 手动指定策略文件
uv run scripts/play.py --env acrobot --policy runs/acrobot/nn/best_policy.pickle

提示：策略会从 runs/acrobot/ 中自动选择。你可以使用 --policy 参数覆盖。

配置参数#

环境配置#

@registry.envcfg("acrobot")
@dataclass
class AcrobotEnvCfg(EnvCfg):
    model_file: str = model_file
    reset_noise_scale: float = 0.1
    max_episode_seconds: float = 10.0
    render_spacing: float = 2.0
    sim_dt: float = 0.01
    ctrl_dt: float = 0.02

训练配置（PPO 示例）#

@rlcfg("acrobot", backend="jax")
@dataclass
class AcrobotSkrlPpo(SkrlCfg):
    """Acrobot SKRL configuration with nested structure.

    Configuration overrides:
    - Network architecture: 32x32 hidden layers for both policy and value
    - PPO parameters: 64 rollouts, 5 learning epochs, 8 mini-batches
    - Training: 60M timesteps
    """

    def __post_init__(self):
        """Configure nested SKRL runner settings."""
        runner = self.runner

        # Configure model architectures
        runner.models.policy.hiddens = [32, 32]
        runner.models.value.hiddens = [32, 32]

        # Configure PPO agent parameters
        agent = runner.agent
        agent.rollouts = 64
        agent.learning_epochs = 5
        agent.mini_batches = 8
        agent.learning_rate = 3e-4
        agent.grad_norm_clip = 0.1
        agent.entropy_loss_scale = 0.1
        agent.discount_factor = 0.995
        agent.lam = 0.97
        agent.ratio_clip = 0.2
        agent.value_loss_scale = 0.5
        agent.value_clip = 10.0
        agent.clip_predicted_values = False
        agent.learning_rate_scheduler_kwargs = {"kl_threshold": 0.02}
        agent.kl_threshold = 0.03

        # Configure training parameters
        runner.trainer.timesteps = 29000

预期训练结果#

Acrobot 能够摆动双臂到达目标位置
末端能够稳定地停留在目标区域内
过高的震荡通过速度惩罚得到减少
策略能够以平滑的动作高效地接近目标