Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics

要約

【タイトル】
行動意味に対する行動の影響を組み込むことで前進する:逆方向への移動

【要約】
・埋め込みエージェントをトレーニングする際の一般的な仮定は、行動を取ることの影響が安定しているということである。
・例えば、「前進する」という行動を実行すれば常に一定の距離でエージェントが前進するが、アクチュエータによる微小なノイズがあるかもしれない。
・行動の影響が行動の事前に定義された意味にしっかりと反映されることを前提とする代わりに、我々は潜在的な埋め込みを使用した行動の影響をオンラインでモデル化することを提案する。
・これらの潜在的な行動の埋め込みを新しいトランスフォーマーベースのポリシーヘッドと組み合わせて、行動適応型ポリシー(AAP)を設計する。
・AI2-THORおよびHabitatの2つの挑戦的なビジュアルナビゲーションタスクでAAPを評価し、推論時に欠落しているアクションや以前に見たことのない、揺らがるアクション空間に直面してもAAPが高いパフォーマンスを示すことを示す。
・さらに、実世界のシナリオで評価する際には、これらの行動に対する耐久性の改善が観察された。

要約(オリジナル)

A common assumption when training embodied agents is that the impact of taking an action is stable; for instance, executing the ‘move ahead’ action will always move the agent forward by a fixed distance, perhaps with some small amount of actuator-induced noise. This assumption is limiting; an agent may encounter settings that dramatically alter the impact of actions: a move ahead action on a wet floor may send the agent twice as far as it expects and using the same action with a broken wheel might transform the expected translation into a rotation. Instead of relying that the impact of an action stably reflects its pre-defined semantic meaning, we propose to model the impact of actions on-the-fly using latent embeddings. By combining these latent action embeddings with a novel, transformer-based, policy head, we design an Action Adaptive Policy (AAP). We evaluate our AAP on two challenging visual navigation tasks in the AI2-THOR and Habitat environments and show that our AAP is highly performant even when faced, at inference-time with missing actions and, previously unseen, perturbed action space. Moreover, we observe significant improvement in robustness against these actions when evaluating in real-world scenarios.

arxiv情報

著者 Kuo-Hao Zeng,Luca Weihs,Roozbeh Mottaghi,Ali Farhadi
発行日 2023-04-24 17:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク