Student-Informed Teacher Training

要約

特権教師による模倣学習は、画像などの高次元入力から複雑な制御行動を学習するのに効果的であることが証明されています。
このフレームワークでは、教師は特権タスク情報で訓練されていますが、学生はより限られた観察を持つ教師の行動を予測しようとします。たとえば、ロボットナビゲーションタスクでは、教師は近くの障害物への距離にアクセスできますが、生徒はシーンの視覚的な観察のみを受けます。
ただし、特権的な模倣学習は重要な課題に直面しています。生徒は、部分的な観察性のために教師の行動を模倣できない場合があります。
この問題は、生徒が学習行動を模倣できるかどうかを考慮せずに教師が訓練されているためです。
この教師と学生の非対称性に対処するために、教師と生徒のポリシーの共同トレーニングのフレームワークを提案し、後者の情報へのアクセスとその部分的な観察性にもかかわらず、生徒が模倣できる行動を教師に学ぶよう奨励します。
模倣学習に縛られたパフォーマンスに基づいて、(i)教師の報酬機能に対するペナルティ用語として教師と生徒の間の近似アクション違い、および(ii)監督された教師と学生の調整ステップを追加します。
私たちは、迷路のナビゲーションタスクで方法を動機付け、複雑な視覚ベースの象限の飛行と操作タスクに対するその有効性を実証します。

要約(オリジナル)

Imitation learning with a privileged teacher has proven effective for learning complex control behaviors from high-dimensional inputs, such as images. In this framework, a teacher is trained with privileged task information, while a student tries to predict the actions of the teacher with more limited observations, e.g., in a robot navigation task, the teacher might have access to distances to nearby obstacles, while the student only receives visual observations of the scene. However, privileged imitation learning faces a key challenge: the student might be unable to imitate the teacher’s behavior due to partial observability. This problem arises because the teacher is trained without considering if the student is capable of imitating the learned behavior. To address this teacher-student asymmetry, we propose a framework for joint training of the teacher and student policies, encouraging the teacher to learn behaviors that can be imitated by the student despite the latters’ limited access to information and its partial observability. Based on the performance bound in imitation learning, we add (i) the approximated action difference between teacher and student as a penalty term to the reward function of the teacher, and (ii) a supervised teacher-student alignment step. We motivate our method with a maze navigation task and demonstrate its effectiveness on complex vision-based quadrotor flight and manipulation tasks.

arxiv情報

著者 Nico Messikommer,Jiaxu Xing,Elie Aljalbout,Davide Scaramuzza
発行日 2025-02-27 12:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク