要約
特権的な教師による模倣学習は、画像などの高次元の入力から複雑な制御動作を学習するのに効果的であることが証明されています。
このフレームワークでは、教師は特権的なタスク情報を使用してトレーニングされますが、生徒はより限定的な観察によって教師の行動を予測しようとします。たとえば、ロボットナビゲーションタスクでは、教師は近くの障害物までの距離にアクセスできる可能性がありますが、
生徒は現場を視覚的に観察するだけです。
しかし、特権的模倣学習は重要な課題に直面しています。それは、部分的な観察可能性により、生徒が教師の行動を模倣できない可能性があるということです。
この問題は、教師が生徒が学習した行動を模倣できるかどうかを考慮せずに訓練されるために発生します。
この教師と生徒の非対称性に対処するために、私たちは、教師と生徒のポリシーの共同トレーニングの枠組みを提案し、後者の情報へのアクセスが限られており、その部分的な観察可能性にも関わらず、生徒が真似できる行動を学習するよう教師に奨励します。
模倣学習におけるパフォーマンス限界に基づいて、(i) 教師と生徒の間の近似的な行動の差を教師の報酬関数にペナルティ項として追加し、(ii) 教師付き教師と生徒の調整ステップを追加します。
私たちは、迷路ナビゲーション タスクを使用してこの方法を動機付け、複雑な視覚ベースのクアッドローター飛行および操作タスクにおけるその有効性を実証します。
要約(オリジナル)
Imitation learning with a privileged teacher has proven effective for learning complex control behaviors from high-dimensional inputs, such as images. In this framework, a teacher is trained with privileged task information, while a student tries to predict the actions of the teacher with more limited observations, e.g., in a robot navigation task, the teacher might have access to distances to nearby obstacles, while the student only receives visual observations of the scene. However, privileged imitation learning faces a key challenge: the student might be unable to imitate the teacher’s behavior due to partial observability. This problem arises because the teacher is trained without considering if the student is capable of imitating the learned behavior. To address this teacher-student asymmetry, we propose a framework for joint training of the teacher and student policies, encouraging the teacher to learn behaviors that can be imitated by the student despite the latters’ limited access to information and its partial observability. Based on the performance bound in imitation learning, we add (i) the approximated action difference between teacher and student as a penalty term to the reward function of the teacher, and (ii) a supervised teacher-student alignment step. We motivate our method with a maze navigation task and demonstrate its effectiveness on complex vision-based quadrotor flight and manipulation tasks.
arxiv情報
著者 | Nico Messikommer,Jiaxu Xing,Elie Aljalbout,Davide Scaramuzza |
発行日 | 2024-12-12 10:34:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google