Out of Sight, Still in Mind: Reasoning and Planning about Unobserved Objects with Video Tracking Enabled Memory Models

要約

ロボットが現実的な環境で確実に動作するには、以前に観察されたものの、現在は遮蔽されているオブジェクトの記憶を持っている必要があります。
オブジェクト指向メモリをマルチオブジェクト操作の推論および計画フレームワークにエンコードする問題を調査します。
私たちは DOOM と LOOM を提案します。これらはトランスフォーマー リレーショナル ダイナミクスを利用して、部分視点の点群と物体発見および追跡エンジンが与えられた軌跡の履歴をエンコードします。
私たちのアプローチは、遮蔽されたオブジェクトの推論、新しいオブジェクトの出現、オブジェクトの再出現など、複数の困難なタスクを実行できます。
私たちの広範なシミュレーションと現実世界での実験を通じて、オブジェクトの数や気を散らすアクションの数の違いに関して、私たちのアプローチがうまく機能することがわかりました。
さらに、私たちのアプローチが暗黙的なメモリのベースラインを上回るパフォーマンスを示すことを示します。

要約(オリジナル)

Robots need to have a memory of previously observed, but currently occluded objects to work reliably in realistic environments. We investigate the problem of encoding object-oriented memory into a multi-object manipulation reasoning and planning framework. We propose DOOM and LOOM, which leverage transformer relational dynamics to encode the history of trajectories given partial-view point clouds and an object discovery and tracking engine. Our approaches can perform multiple challenging tasks including reasoning with occluded objects, novel objects appearance, and object reappearance. Throughout our extensive simulation and real-world experiments, we find that our approaches perform well in terms of different numbers of objects and different numbers of distractor actions. Furthermore, we show our approaches outperform an implicit memory baseline.

arxiv情報

著者 Yixuan Huang,Jialin Yuan,Chanho Kim,Pupul Pradhan,Bryan Chen,Li Fuxin,Tucker Hermans
発行日 2024-03-08 07:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク