要約
家事を遂行するには、以前の行動の結果を考慮して段階的な行動を計画する必要があります。
しかし、最先端の身体化エージェントは、そのような知識のない専門家やアルゴリズムプランナーを模倣することによる不完全な学習により、環境をナビゲートしたり、適切なオブジェクトと対話したりする際に間違いを犯すことがよくあります。
ビジュアルナビゲーションとオブジェクトインタラクションの両方を改善するために、一連のアクションにセマンティックコンテキスト(対話する適切なオブジェクトなど)を組み込むCAPEAM(コンテキスト認識プランニングおよび環境認識メモリ)によって実行されたアクションの結果を考慮することを提案します。
そして、その後のアクションを推測する際に、インタラクションされたオブジェクトの変化した空間配置と状態(オブジェクトが移動された場所など)を利用します。
我々は、提案された CAPEAM を備えたエージェントが、目に見える環境と目に見えない環境の両方で、ベンチマークに従う挑戦的な対話型命令を使用して、さまざまな指標で最先端のパフォーマンスを達成することを経験的に示しています (目に見えない環境では最大 +10.70%)。
要約(オリジナル)
Accomplishing household tasks requires to plan step-by-step actions considering the consequences of previous actions. However, the state-of-the-art embodied agents often make mistakes in navigating the environment and interacting with proper objects due to imperfect learning by imitating experts or algorithmic planners without such knowledge. To improve both visual navigation and object interaction, we propose to consider the consequence of taken actions by CAPEAM (Context-Aware Planning and Environment-Aware Memory) that incorporates semantic context (e.g., appropriate objects to interact with) in a sequence of actions, and the changed spatial arrangement and states of interacted objects (e.g., location that the object has been moved to) in inferring the subsequent actions. We empirically show that the agent with the proposed CAPEAM achieves state-of-the-art performance in various metrics using a challenging interactive instruction following benchmark in both seen and unseen environments by large margins (up to +10.70% in unseen env.).
arxiv情報
著者 | Byeonghwi Kim,Jinyeon Kim,Yuyeong Kim,Cheolhong Min,Jonghyun Choi |
発行日 | 2023-08-22 02:20:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google