Leverage Cross-Attention for End-to-End Open-Vocabulary Panoptic Reconstruction

要約

オープンボキャブラリーパノプティック再構成は、包括的なシーン理解を提供し、具現化ロボット工学やフォトリアリスティックシミュレーションの進歩を可能にする。本論文では、新しいクロスアテンションパースペクティブを通してパノプティック再構成を定式化するエンドツーエンドの手法であるPanopticRecon++を提案する。この視点は、3Dインスタンス(クエリとして)とシーンの3D埋め込みフィールド(キーとして)の関係を、そのアテンションマップを通してモデル化する。クエリとキーの最適化を分離したり、空間的近接性を見落としたりする既存の手法とは異なり、PanopticRecon++は学習可能な3Dガウシアンをインスタンスのクエリとして導入する。この定式化は、エンドツーエンドの最適化可能性を維持しつつ、近接性を保持するために3次元空間プリオールを注入する。さらに、このクエリー定式化は、クエリーからレンダリングされたインスタンスマスクによる最適な線形割り当てを活用することで、フレーム間の2Dオープン語彙インスタンスIDのアライメントを容易にする。さらに、クエリベースのインスタンス分割確率を、パノプティック損失によって監督された新しいパノプティックヘッドにおける意味的確率と融合させることで、意味的インスタンス分割の一貫性を確保する。学習中、インスタンスクエリストークンの数はオブジェクトの数に合わせて動的に適応される。PanopticRecon++は、シミュレーションと実世界のデータセットの両方において、3Dと2Dのセグメンテーションと再構成の性能において競争力のある性能を示し、ロボットシミュレータとしてのユーザケースを実証する。私たちのプロジェクトのウェブサイトは: https://yuxuan1206.github.io/panopticrecon_pp/

要約(オリジナル)

Open-vocabulary panoptic reconstruction offers comprehensive scene understanding, enabling advances in embodied robotics and photorealistic simulation. In this paper, we propose PanopticRecon++, an end-to-end method that formulates panoptic reconstruction through a novel cross-attention perspective. This perspective models the relationship between 3D instances (as queries) and the scene’s 3D embedding field (as keys) through their attention map. Unlike existing methods that separate the optimization of queries and keys or overlook spatial proximity, PanopticRecon++ introduces learnable 3D Gaussians as instance queries. This formulation injects 3D spatial priors to preserve proximity while maintaining end-to-end optimizability. Moreover, this query formulation facilitates the alignment of 2D open-vocabulary instance IDs across frames by leveraging optimal linear assignment with instance masks rendered from the queries. Additionally, we ensure semantic-instance segmentation consistency by fusing query-based instance segmentation probabilities with semantic probabilities in a novel panoptic head supervised by a panoptic loss. During training, the number of instance query tokens dynamically adapts to match the number of objects. PanopticRecon++ shows competitive performance in terms of 3D and 2D segmentation and reconstruction performance on both simulation and real-world datasets, and demonstrates a user case as a robot simulator. Our project website is at: https://yuxuan1206.github.io/panopticrecon_pp/

arxiv情報

著者 Xuan Yu,Yuxuan Xie,Yili Liu,Haojian Lu,Rong Xiong,Yiyi Liao,Yue Wang
発行日 2025-01-02 07:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク