SplatR : Experience Goal Visual Rearrangement with 3D Gaussian Splatting and Dense Feature Matching

要約

エクスペリエンス目標の視覚的再配置タスクは、Embedded AI 内の基礎的な課題として存在し、エージェントは目標の状態を正確に捉える堅牢な世界モデルを構築する必要があります。
エージェントはこのワールド モデルを使用して、シャッフルされたシーンを元の構成に復元し、タスクを正常に完了するために不可欠なワールドの正確な表現を作成します。
この研究では、経験目標の視覚的再配置タスクのための 3D シーン表現として 3D ガウス スプラッティングを利用する新しいフレームワークを紹介します。
3D ガウス スプラッティングなどのボリューム シーン表現の最近の進歩により、高品質でフォトリアリスティックな斬新なビューを高速にレンダリングできます。
私たちのアプローチにより、エージェントは再配置タスクの現在と目標設定について一貫したビューを持つことができ、これによりエージェントは目標状態と画像空間内の世界のシャッフルされた状態を直接比較できるようになります。
これらのビューを比較するために、堅牢性と一般化を促進する、より普遍的な特徴表現の利点を活用して、基盤モデルから抽出された視覚的特徴を使用して密な特徴マッチング手法を使用することを提案します。
AI2-THOR 再配置チャレンジのベンチマークに対するアプローチを検証し、現在の最先端の方法に対する改善を実証します。

要約(オリジナル)

Experience Goal Visual Rearrangement task stands as a foundational challenge within Embodied AI, requiring an agent to construct a robust world model that accurately captures the goal state. The agent uses this world model to restore a shuffled scene to its original configuration, making an accurate representation of the world essential for successfully completing the task. In this work, we present a novel framework that leverages on 3D Gaussian Splatting as a 3D scene representation for experience goal visual rearrangement task. Recent advances in volumetric scene representation like 3D Gaussian Splatting, offer fast rendering of high quality and photo-realistic novel views. Our approach enables the agent to have consistent views of the current and the goal setting of the rearrangement task, which enables the agent to directly compare the goal state and the shuffled state of the world in image space. To compare these views, we propose to use a dense feature matching method with visual features extracted from a foundation model, leveraging its advantages of a more universal feature representation, which facilitates robustness, and generalization. We validate our approach on the AI2-THOR rearrangement challenge benchmark and demonstrate improvements over the current state of the art methods

arxiv情報

著者 Arjun P S,Andrew Melnik,Gora Chand Nandi
発行日 2024-12-17 13:02:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク