DOCTR: Disentangled Object-Centric Transformer for Point Scene Understanding

要約

ポイント シーンの理解は、現実世界のシーンの点群を処理する難しいタスクであり、各オブジェクトをセグメント化し、その姿勢を推定し、そのメッシュを同時に再構築することを目的としています。
最近の最先端の方法では、最初に各オブジェクトをセグメント化し、次にそれらをさまざまなサブタスクの複数の段階で個別に処理します。
これにより、最適化するパイプラインが複雑になり、複数のオブジェクト間の関係制約を活用することが困難になります。
この研究では、統合された方法で複数のサブタスクについて複数のオブジェクトを使用した学習を容易にするオブジェクト中心の表現を探求する、新しい Disentangled Object-Centric TRansformer (DOCTR) を提案します。
各オブジェクトはクエリとして表現され、Transformer デコーダはそれらの関係に関係するすべてのクエリを繰り返し最適化するように適合されています。
特に、クエリ機能が対応するサブタスクに関連するセマンティック情報と幾何情報に個別に対応できるようにするセマンティックジオメトリ分解クエリ (SGDQ) 設計を導入します。
トレーニング中にすべてのサブタスクからの監視を適切に使用するために、ハイブリッド 2 部マッチング モジュールが採用されています。
定性的および定量的な実験結果は、私たちの方法が困難な ScanNet データセット上で最先端のパフォーマンスを達成することを示しています。
コードは https://github.com/SAITPublic/DOCTR で入手できます。

要約(オリジナル)

Point scene understanding is a challenging task to process real-world scene point cloud, which aims at segmenting each object, estimating its pose, and reconstructing its mesh simultaneously. Recent state-of-the-art method first segments each object and then processes them independently with multiple stages for the different sub-tasks. This leads to a complex pipeline to optimize and makes it hard to leverage the relationship constraints between multiple objects. In this work, we propose a novel Disentangled Object-Centric TRansformer (DOCTR) that explores object-centric representation to facilitate learning with multiple objects for the multiple sub-tasks in a unified manner. Each object is represented as a query, and a Transformer decoder is adapted to iteratively optimize all the queries involving their relationship. In particular, we introduce a semantic-geometry disentangled query (SGDQ) design that enables the query features to attend separately to semantic information and geometric information relevant to the corresponding sub-tasks. A hybrid bipartite matching module is employed to well use the supervisions from all the sub-tasks during training. Qualitative and quantitative experimental results demonstrate that our method achieves state-of-the-art performance on the challenging ScanNet dataset. Code is available at https://github.com/SAITPublic/DOCTR.

arxiv情報

著者 Xiaoxuan Yu,Hao Wang,Weiming Li,Qiang Wang,Soonyong Cho,Younghun Sung
発行日 2024-03-25 05:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク