要約
ヒューマノイドロボットは、近年大きな注目を集めています。
補強学習(RL)は、ヒューマノイドロボットの全身を制御する主な方法の1つです。
RLにより、エージェントは、タスクの報酬によって導かれた環境インタラクションから学習することにより、タスクを完了できます。
ただし、既存のRLメソッドは、ヒューマノイドの移動と操作に対する身体の安定性の影響を明示的に考慮することはめったにありません。
全身制御で高性能を達成することは、タスク報酬のみに依存するRLメソッドにとって課題のままです。
この論文では、ヒューマノイドの移動と操作のための基礎モデルベースの方法(略してFLAM)を提案します。
FLAMは、安定化報酬機能を基本的なポリシーと統合します。
安定化報酬機能は、ロボットが安定した姿勢を学習するように促すように設計されており、それにより学習プロセスを加速し、タスクの完了を促進します。
具体的には、ロボットのポーズは、最初に3D仮想ヒューマンモデルにマッピングされます。
次に、人間のポーズが安定し、人間の運動再構成モデルを通じて再構築されます。
最後に、再建の前後のポーズを使用して、安定化報酬を計算するために使用されます。
この安定化報酬とタスク報酬を組み合わせることにより、FLAMは政策学習を効果的に導きます。
ヒューマノイドロボットベンチマークの実験結果は、FLAMが最先端のRLメソッドよりも優れていることを示しており、安定性と全体的なパフォーマンスの向上におけるその有効性を強調しています。
要約(オリジナル)
Humanoid robots have attracted significant attention in recent years. Reinforcement Learning (RL) is one of the main ways to control the whole body of humanoid robots. RL enables agents to complete tasks by learning from environment interactions, guided by task rewards. However, existing RL methods rarely explicitly consider the impact of body stability on humanoid locomotion and manipulation. Achieving high performance in whole-body control remains a challenge for RL methods that rely solely on task rewards. In this paper, we propose a Foundation model-based method for humanoid Locomotion And Manipulation (FLAM for short). FLAM integrates a stabilizing reward function with a basic policy. The stabilizing reward function is designed to encourage the robot to learn stable postures, thereby accelerating the learning process and facilitating task completion. Specifically, the robot pose is first mapped to the 3D virtual human model. Then, the human pose is stabilized and reconstructed through a human motion reconstruction model. Finally, the pose before and after reconstruction is used to compute the stabilizing reward. By combining this stabilizing reward with the task reward, FLAM effectively guides policy learning. Experimental results on a humanoid robot benchmark demonstrate that FLAM outperforms state-of-the-art RL methods, highlighting its effectiveness in improving stability and overall performance.
arxiv情報
著者 | Xianqi Zhang,Hongliang Wei,Wenrui Wang,Xingtao Wang,Xiaopeng Fan,Debin Zhao |
発行日 | 2025-03-28 09:02:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google