SENSOR: Imitate Third-Person Expert’s Behaviors via Active Sensoring

要約

現実世界の視覚的模倣学習 (IL) シナリオの多くでは、エージェントと専門家の視点の間に不一致があり、それが模倣の失敗につながる可能性があります。
従来の方法では一般に、ドメインの位置合わせによってこの問題を解決していましたが、これにより余分な計算コストとストレージ コストが発生し、視点のギャップが大きすぎる \textit{困難なケース} を処理できません。
上記の問題を軽減するために、ビジュアル IL 設定にアクティブ センサーを導入し、エージェントの視点を専門家の視点に合わせて自動的に変更するモデルベースの SENSory imitatOR (SENSOR) を提案します。
SENSOR は、潜在状態のダイナミクスを捕捉するためのワールド モデル、カメラを制御するためのセンサー ポリシー、エージェントを制御するためのモーター ポリシーを共同で学習します。
視覚的な移動タスクに関する実験では、SENSOR が専門家の視点と戦略を効率的にシミュレートでき、ほとんどのベースライン手法を上回るパフォーマンスを示すことが示されています。

要約(オリジナル)

In many real-world visual Imitation Learning (IL) scenarios, there is a misalignment between the agent’s and the expert’s perspectives, which might lead to the failure of imitation. Previous methods have generally solved this problem by domain alignment, which incurs extra computation and storage costs, and these methods fail to handle the \textit{hard cases} where the viewpoint gap is too large. To alleviate the above problems, we introduce active sensoring in the visual IL setting and propose a model-based SENSory imitatOR (SENSOR) to automatically change the agent’s perspective to match the expert’s. SENSOR jointly learns a world model to capture the dynamics of latent states, a sensor policy to control the camera, and a motor policy to control the agent. Experiments on visual locomotion tasks show that SENSOR can efficiently simulate the expert’s perspective and strategy, and outperforms most baseline methods.

arxiv情報

著者 Kaichen Huang,Minghao Shao,Shenghua Wan,Hai-Hang Sun,Shuai Feng,Le Gan,De-Chuan Zhan
発行日 2024-04-04 11:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク