三维人形机器人#
三维人形机器人(Humanoid)是 DeepMind Control Suite 中的经典双足行走任务。其目标是训练一个模拟的三维人形机器人,通过控制其关节力矩,实现站立、行走和奔跑。
任务描述#
Humanoid 是一个三维空间的双足人形机器人任务。机器人由头部、躯干、双臂和双腿组成,拥有 21 个受控关节(执行器),智能体通过向这些关节施加扭矩作为动作,让机器人实现站立平衡、向前行走或快速奔跑。该任务要求协调的双足步态、平衡控制和三维空间姿态稳定能力。
动作空间(Action Space)#
项目 |
详细信息 |
|---|---|
类型 |
|
维度 |
21 |
动作对应如下:
序号 |
动作含义(施加在关节的力矩) |
最小值 |
最大值 |
对应 XML 中名称 |
|---|---|---|---|---|
0 |
腹部 Y 轴旋转关节驱动扭矩 |
-1.0 |
1.0 |
|
1 |
腹部 Z 轴旋转关节驱动扭矩 |
-1.0 |
1.0 |
|
2 |
腹部 X 轴旋转关节驱动扭矩 |
-1.0 |
1.0 |
|
3 |
右髋关节 X 轴驱动扭矩 |
-1.0 |
1.0 |
|
4 |
右髋关节 Z 轴驱动扭矩 |
-1.0 |
1.0 |
|
5 |
右髋关节 Y 轴驱动扭矩 |
-1.0 |
1.0 |
|
6 |
右膝关节驱动扭矩 |
-1.0 |
1.0 |
|
7 |
右踝关节 X 轴驱动扭矩 |
-1.0 |
1.0 |
|
8 |
右踝关节 Y 轴驱动扭矩 |
-1.0 |
1.0 |
|
9 |
左髋关节 X 轴驱动扭矩 |
-1.0 |
1.0 |
|
10 |
左髋关节 Z 轴驱动扭矩 |
-1.0 |
1.0 |
|
11 |
左髋关节 Y 轴驱动扭矩 |
-1.0 |
1.0 |
|
12 |
左膝关节驱动扭矩 |
-1.0 |
1.0 |
|
13 |
左踝关节 X 轴驱动扭矩 |
-1.0 |
1.0 |
|
14 |
左踝关节 Y 轴驱动扭矩 |
-1.0 |
1.0 |
|
15 |
右肩关节 1 驱动扭矩 |
-1.0 |
1.0 |
|
16 |
右肩关节 2 驱动扭矩 |
-1.0 |
1.0 |
|
17 |
右肘关节驱动扭矩 |
-1.0 |
1.0 |
|
18 |
左肩关节 1 驱动扭矩 |
-1.0 |
1.0 |
|
19 |
左肩关节 2 驱动扭矩 |
-1.0 |
1.0 |
|
20 |
左肘关节驱动扭矩 |
-1.0 |
1.0 |
|
观察空间#
项目 |
详细信息 |
|---|---|
类型 |
|
维度 |
73 |
Humanoid 环境的观测空间由以下部分组成(按顺序):
部分 |
内容说明 |
维度 |
备注 |
|---|---|---|---|
joint_angles |
各关节角度(排除根关节的 7 个自由度) |
22 |
22 个关节的角度信息 |
head_height |
头部高度 |
1 |
头部相对于地面的高度 |
extremities |
四肢末端位置(相对于躯干) |
12 |
左手、左脚、右手、右脚的位置(各 3 维,按此顺序) |
torso_vertical |
躯干垂直方向向量 |
3 |
躯干在局部坐标系中的垂直方向 |
com_vel |
质心线速度 |
3 |
躯干子树的线速度 |
qvel |
所有关节和根部的速度信息 |
29 |
包括根关节的 6 个自由度 |
target_local |
目标方向(局部坐标系) |
3 |
目标方向在躯干局部坐标系中的表示 |
奖励函数设计#
Humanoid 的奖励函数根据任务类型(站立、行走、奔跑)有所不同,但都包含以下核心组件:
姿态奖励(Posture Reward)#
# 头部高度奖励:保持头部在目标高度(标准站立高度的 95%,约 1.33m)以上
stand_reward = tolerance(head_height, bounds=(stand_height * 0.95, inf), margin=0.5)
# 躯干直立奖励:保持躯干直立
upright_reward = tolerance(torso_upright, bounds=(0.9, inf), sigmoid="linear", margin=0.9)
# 盆骨高度奖励:保持盆骨在合理高度(标准站立高度的 60%,约 0.84m)以上
pelvis_height_reward = tolerance(pelvis_height, bounds=(stand_height * 0.6, inf), sigmoid="linear", margin=stand_height * 0.6)
# 姿态奖励 = 头部高度奖励 × 躯干直立奖励 × 盆骨高度奖励
posture_reward = stand_reward * upright_reward * pelvis_height_reward
速度奖励(Speed Reward)#
根据任务类型,速度奖励的计算方式不同:
站立任务(move_speed <= 0):
# 速度奖励:保持接近零速度
speed_reward = tolerance(actual_speed, bounds=(0, 0), margin=1.0, value_at_margin=0.01)
行走任务(0 < move_speed <= 3.0):
# 速度奖励:在目标方向(X 轴正方向)上达到目标速度(默认 1.0 m/s)
actual_speed = dot(com_vel[:2], target_direction[:2]) # 速度在目标方向上的投影
speed_reward = tolerance(actual_speed, bounds=(move_speed, move_speed), margin=move_speed, sigmoid="linear")
奔跑任务(move_speed > 3.0):
# 速度奖励:在目标方向上达到目标速度(默认 10.0 m/s)以上
actual_speed = dot(com_vel[:2], target_direction[:2])
speed_reward = tolerance(actual_speed, bounds=(move_speed, inf), margin=move_speed, sigmoid="linear")
能量奖励(Energy Reward)#
energy_reward = exp(-energy_coef * mean(ctrls ^ 2))
步态奖励(Gait Reward)#
# 躯干朝向奖励:躯干正对目标方向
torso_heading_reward = tolerance(dot(torso_forward, target_dir), bounds=(0.9, 1.0), margin=0.3, sigmoid="linear")
# 头部朝向奖励:头部正对目标方向
head_heading_reward = tolerance(dot(head_forward, target_dir), bounds=(0.9, 1.0), margin=0.3, sigmoid="linear")
# 盆骨朝向奖励:盆骨正对目标方向
pelvis_yaw_reward = tolerance(dot(pelvis_forward, target_dir), bounds=(0.9, 1.0), margin=0.3, sigmoid="linear")
# 盆骨水平奖励:盆骨保持水平
pelvis_level_reward = tolerance(pelvis_up, bounds=(0.9, 1.0), margin=0.3, sigmoid="linear")
# 足部高度奖励:足部保持贴近地面
feet_height_reward = tolerance(max_foot_height, bounds=(0.0, 0.3), margin=0.5, sigmoid="quadratic")
# 步态奖励 = 所有朝向和姿态奖励的乘积
gait_reward = torso_heading_reward * head_heading_reward * pelvis_yaw_reward * pelvis_level_reward * feet_height_reward
总奖励#
total_reward = posture_reward * speed_reward * energy_reward * gait_reward
初始状态#
机器人位置:躯干初始高度为 1.33 米(标准站立高度的 95%)
机器人姿态:躯干保持直立,四元数设置为 (1.0, 0.0, 0.0, 0.0)
关节角度:在关节限位范围内随机初始化
躯干/髋部基础关节:在较小范围内随机化(±15 度)
腿部关节:对称初始化,确保左右腿独立随机化,膝盖初始弯曲
手臂关节:对称初始化,使用关节限位的中间 80% 范围
初始速度:所有关节速度和线速度初始化为接近零的小随机值(-0.01 到 0.01)
初始控制:所有执行器控制量初始化为接近零的小随机值(-0.02 到 0.02)
Episode 终止条件#
机器人状态观测值出现异常数值(NaN 或 Inf)
头部高度过低:头部高度低于标准站立高度的 50%(0.7 米)
躯干倾斜过大:躯干垂直分量小于 0.2(躯干严重倾斜)
速度异常:任何关节速度的绝对值超过 200.0 rad/s 或 m/s
Episode 最大时长:25 秒
使用指南#
1. 环境预览#
uv run scripts/view.py --env dm-humanoid-stand
uv run scripts/view.py --env dm-humanoid-walk
uv run scripts/view.py --env dm-humanoid-run
2. 开始训练#
uv run scripts/train.py --env dm-humanoid-stand
uv run scripts/train.py --env dm-humanoid-walk
uv run scripts/train.py --env dm-humanoid-run
3. 查看训练进度#
uv run tensorboard --logdir runs/dm-humanoid-walk
4. 测试训练结果#
uv run scripts/play.py --env dm-humanoid-stand
uv run scripts/play.py --env dm-humanoid-walk
uv run scripts/play.py --env dm-humanoid-run
预期训练结果#
站立任务 (dm-humanoid-stand)#
头部高度保持在 1.3-1.5m 范围
躯干直立角度偏差小于 15 度
能够稳定站立不倒
速度接近零,无明显移动
行走任务 (dm-humanoid-walk)#
实际行走速度接近 1.0 m/s
步态协调,无明显摔倒
能够持续稳定行走
躯干和头部朝向目标方向
奔跑任务 (dm-humanoid-run)#
奔跑速度达到 4.0-10.0 m/s
出现飞行相(双脚同时离地)
步态协调稳定
能够保持高速奔跑姿态