MILE: Model-based Intervention Learning

要約

模倣学習手法は、ロボット工学などの実際の制御シナリオで非常に効果的であることが示されています。
ただし、これらのアプローチは、エラーの複利の問題に悩まされるだけでなく、人間の専門家に完全な軌跡を提供する必要があります。
専門家がロボットを監督し、必要に応じて介入するインタラクティブな方法は存在しますが、これらの拡張は通常、介入期間中に収集されたデータのみを利用し、非介入のタイムステップに隠されたフィードバック信号を無視します。
この作業では、そのような場合に介入がどのように発生するかを策定するモデルを作成し、ほんの一握りの専門家介入でポリシーを学ぶことが可能であることを示します。
私たちの重要な洞察は、介入の存在や介入の欠如に関係なく、現在の状態の質と、選択したアクションの最適性に関する重要な情報を取得することが可能であるということです。
さまざまな離散および連続シミュレーション環境、実際のロボット操作タスク、および人間の被験者研究での方法を評価します。
ビデオとコードはhttps://liralab.usc.edu/mileにあります。

要約(オリジナル)

Imitation learning techniques have been shown to be highly effective in real-world control scenarios, such as robotics. However, these approaches not only suffer from compounding error issues but also require human experts to provide complete trajectories. Although there exist interactive methods where an expert oversees the robot and intervenes if needed, these extensions usually only utilize the data collected during intervention periods and ignore the feedback signal hidden in non-intervention timesteps. In this work, we create a model to formulate how the interventions occur in such cases, and show that it is possible to learn a policy with just a handful of expert interventions. Our key insight is that it is possible to get crucial information about the quality of the current state and the optimality of the chosen action from expert feedback, regardless of the presence or the absence of intervention. We evaluate our method on various discrete and continuous simulation environments, a real-world robotic manipulation task, as well as a human subject study. Videos and the code can be found at https://liralab.usc.edu/mile .

arxiv情報

著者 Yigit Korkmaz,Erdem Bıyık
発行日 2025-02-19 08:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク