要約
模倣学習は、複数のタスクを自律的に解決できるジェネラリスト政策の開発を促進しました。
ただし、展開中に事前に処理されたポリシーがエラーを犯した場合、ユーザーがその動作を修正するメカニズムは限られています。
Finetuningの追加データを収集することで、そのような問題に対処できますが、ダウンストリームユースケースごとにそうすることは展開には非効率的です。
私の研究では、代替案を提案しています。前提条件のポリシーを固定スキルのレパートリーとして凍結し、ユーザーインタラクションが推論時にユーザーの好みに向けて動作生成を導くことを許可します。
事前に守られたポリシーを操縦可能にすることにより、ユーザーは、モデルがポリシーを微調整する必要がある場合に一般化するのに苦労しているときに、ポリシーエラーを修正するのに役立ちます。
具体的には、(1)(1)ユーザーのインタラクションを活用して個別のスキルを切り替えることを提案します。(2)タスクとモーションの模倣を提案します。
これらのフレームワークは、追加のトレーニングを必要とせずに、誤ったポリシーの予測を修正し、推論時間ユーザーの目標を達成しながら、前提条件のモデルの有用性を最大化します。
要約(オリジナル)
Imitation learning has driven the development of generalist policies capable of autonomously solving multiple tasks. However, when a pretrained policy makes errors during deployment, there are limited mechanisms for users to correct its behavior. While collecting additional data for finetuning can address such issues, doing so for each downstream use case is inefficient at deployment. My research proposes an alternative: keeping pretrained policies frozen as a fixed skill repertoire while allowing user interactions to guide behavior generation toward user preferences at inference time. By making pretrained policies steerable, users can help correct policy errors when the model struggles to generalize-without needing to finetune the policy. Specifically, I propose (1) inference-time steering, which leverages user interactions to switch between discrete skills, and (2) task and motion imitation, which enables user interactions to edit continuous motions while satisfying task constraints defined by discrete symbolic plans. These frameworks correct misaligned policy predictions without requiring additional training, maximizing the utility of pretrained models while achieving inference-time user objectives.
arxiv情報
著者 | Yanwei Wang |
発行日 | 2025-06-17 07:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google