二维步行机器人#

二维步行机器人（Walker2D）是 DeepMind Control Suite 中的经典双足行走任务。其目标是训练一个模拟的双足机器人，通过控制其关节力矩，实现站立、行走和奔跑。

任务描述#

Walker2D 是一个二维平面的双足机器人任务。由多个身体部位组成，拥有多个受控关节，智能体通过向这些关节施加扭矩作为动作，让机器人实现站立平衡、向前行走或快速奔跑。该任务要求协调的双足步态和平衡控制能力。

项目	详细信息
类型	`Box(-1.0, 1.0, (6,), float32)`
维度	6

动作对应如下：

序号	动作含义（施加在关节的力矩）	最小值	最大值	对应 XML 中名称
0	右大腿关节驱动扭矩	-1	1	`right_thigh`
1	右小腿关节驱动扭矩	-1	1	`right_leg`
2	右脚关节驱动扭矩	-1	1	`right_foot`
3	左大腿关节驱动扭矩	-1	1	`left_thigh`
4	左小腿关节驱动扭矩	-1	1	`left_leg`
5	左脚关节驱动扭矩	-1	1	`left_foot`

项目	详细信息
类型	`Box(-inf, inf, (17,), float32)`
维度	17

Walker2D 环境的观测空间由以下部分组成（按顺序）：

部分	内容说明	维度	备注
qpos	各身体关节与根部的位置信息	9	包括躯干高度和角度
qvel	各身体关节与根部的速度信息	8	所有关节及躯干的速度

walker 的奖励函数由以下几个部分组成：

# 高度奖励：保持躯干在目标高度
# 直立奖励：保持躯干直立
# 总奖励 = 高度奖励 + 直立奖励

# 速度奖励：追踪目标前进速度
# 站立奖励：保持躯干在目标高度
# 直立奖励：保持躯干直立
# 总奖励 = 速度奖励 + 站立奖励 + 直立奖励

uv run scripts/view.py --env dm-stander
uv run scripts/view.py --env dm-walker
uv run scripts/view.py --env dm-runner

uv run scripts/train.py --env dm-stander
uv run scripts/train.py --env dm-walker
uv run scripts/train.py --env dm-runner

uv run tensorboard --logdir runs/dm-walker

uv run scripts/play.py --env dm-stander
uv run scripts/play.py --env dm-walker
uv run scripts/play.py --env dm-runner