要約
「水を一杯持ってくる」などの家事を遂行するには、物の空間的配置と以前の行動の結果についての知識を維持して、段階的な行動を計画する必要があります。
しかし、現在の身体化された AI エージェントの知覚モデルは、そのような知識の欠如によりしばしば間違いを犯し、以前の行動によって変化した環境についての知識のない模倣エージェントまたはアルゴリズム プランナーの不完全な学習に依存しています。
この問題に対処するために、我々は、オブジェクトの空間配置とその状態(オブジェクトが移動されたかどうかなど)を計画および維持するために、以前のアクションのコンテキスト情報を組み込む CPEM (コンテキスト認識プランナーおよび環境認識メモリ) を提案します。
視覚的なナビゲーションとオブジェクトのインタラクションの両方を改善するための環境における知覚モデル。
CPEM は、目に見える環境と目に見えない環境の両方で、ベンチマークに従う挑戦的な対話型命令を使用して、さまざまな指標で最先端のタスク成功パフォーマンスを達成していることがわかります (目に見えない環境では最大 +10.70%)。
ECLAIR というテンプレート化されたアクションを備えた CPEM は、CVPR’23 の Embodied AI Workshop での第 1 回ジェネラリスト言語グラウンディング エージェント チャレンジでも優勝しました。
要約(オリジナル)
Accomplishing household tasks such as ‘bringing a cup of water’ requires planning step-by-step actions by maintaining knowledge about the spatial arrangement of objects and the consequences of previous actions. Perception models of the current embodied AI agents, however, often make mistakes due to a lack of such knowledge but rely on imperfect learning of imitating agents or an algorithmic planner without knowledge about the changed environment by the previous actions. To address the issue, we propose CPEM (Context-aware Planner and Environment-aware Memory) to incorporate the contextual information of previous actions for planning and maintaining spatial arrangement of objects with their states (e.g., if an object has been moved or not) in an environment to the perception model for improving both visual navigation and object interaction. We observe that CPEM achieves state-of-the-art task success performance in various metrics using a challenging interactive instruction following benchmark both in seen and unseen environments by large margins (up to +10.70% in unseen env.). CPEM with the templated actions, named ECLAIR, also won the 1st generalist language grounding agents challenge at Embodied AI Workshop in CVPR’23.
arxiv情報
著者 | Byeonghwi Kim,Jinyeon Kim,Yuyeong Kim,Cheolhong Min,Jonghyun Choi |
発行日 | 2023-08-19 15:42:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google