ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments

要約

模擬仮想環境は、日常の家事を実行するロボット エージェントを学習するために広く使用されています。
これらの環境は、研究の進歩を大幅に促進しますが、多くの場合、オブジェクトのインタラクション機能が制限されたり、現実世界の環境とは異なる外観になったり、環境サイズが比較的小さくなったりします。
これにより、仮想シーンで学習したモデルをすぐに展開できなくなります。
これらの学習環境と展開(つまり、現実の)環境の間のギャップを埋めるために、自由形式の言語指示を理解し、対話することでエージェントが家事を完了できるように学習するために、現実世界のシーン、オブジェクト、部屋のレイアウトを採用する ReALFRED ベンチマークを提案します。
大規模なマルチルームの 3D キャプチャ シーン内のオブジェクトを使用します。
具体的には、視覚領域のギャップが小さく、より大きな環境空間向けの更新により ALFRED ベンチマークを拡張します。
ReALFRED では、ALFRED ベンチマーク用に以前に作成されたメソッドを分析し、すべてのメトリクスで一貫してパフォーマンスが低いことを観察し、コミュニティがより現実的な環境でメソッドを開発することを奨励しています。
私たちのコードとデータは公開されています。

要約(オリジナル)

Simulated virtual environments have been widely used to learn robotic agents that perform daily household tasks. These environments encourage research progress by far, but often provide limited object interactability, visual appearance different from real-world environments, or relatively smaller environment sizes. This prevents the learned models in the virtual scenes from being readily deployable. To bridge the gap between these learning environments and deploying (i.e., real) environments, we propose the ReALFRED benchmark that employs real-world scenes, objects, and room layouts to learn agents to complete household tasks by understanding free-form language instructions and interacting with objects in large, multi-room and 3D-captured scenes. Specifically, we extend the ALFRED benchmark with updates for larger environmental spaces with smaller visual domain gaps. With ReALFRED, we analyze previously crafted methods for the ALFRED benchmark and observe that they consistently yield lower performance in all metrics, encouraging the community to develop methods in more realistic environments. Our code and data are publicly available.

arxiv情報

著者 Taewoong Kim,Cheolhong Min,Byeonghwi Kim,Jinyeon Kim,Wonje Jeung,Jonghyun Choi
発行日 2024-07-26 07:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク