要約
我々はUniSeg3Dを提案する。UniSeg3Dは、単一のモデル内で、パノプティック、セマンティック、インスタンス、インタラクティブ、参照、オープンボキャブラリーのセマンティックセグメンテーションのタスクを達成する、統一された3Dセグメンテーションフレームワークである。これまでの3Dセグメンテーション手法の多くは、特定のタスクに特化しているため、3Dシーンの理解がタスク固有の視点に限定されている。これに対して提案手法は、6つのタスクを同じトランスフォーマーによって処理される統一的な表現に統合する。これにより、タスク間の知識共有が容易になり、包括的な3Dシーン理解が促進される。マルチタスク統一の利点を活かすため、タスクのつながりを活用することで性能を向上させる。具体的には、異なるタスク間でタスク固有の知識を伝達するために、知識抽出法と対比学習法を設計する。その結果、UniSeg3Dはより強力になる。ScanNet20、ScanRefer、ScanNet200の3つのベンチマークを用いた実験により、UniSeg3Dは、個々のタスクに特化した手法であっても、現在のSOTA手法を常に凌駕することが実証された。UniSeg3Dが確かな統一ベースラインとして機能し、将来の研究を刺激することを願っています。コードはhttps://dk-liang.github.io/UniSeg3D/。
要約(オリジナル)
We propose UniSeg3D, a unified 3D segmentation framework that achieves panoptic, semantic, instance, interactive, referring, and open-vocabulary semantic segmentation tasks within a single model. Most previous 3D segmentation approaches are specialized for a specific task, thereby limiting their understanding of 3D scenes to a task-specific perspective. In contrast, the proposed method unifies six tasks into unified representations processed by the same Transformer. It facilitates inter-task knowledge sharing and, therefore, promotes comprehensive 3D scene understanding. To take advantage of multi-task unification, we enhance the performance by leveraging task connections. Specifically, we design a knowledge distillation method and a contrastive learning method to transfer task-specific knowledge across different tasks. Benefiting from extensive inter-task knowledge sharing, our UniSeg3D becomes more powerful. Experiments on three benchmarks, including the ScanNet20, ScanRefer, and ScanNet200, demonstrate that the UniSeg3D consistently outperforms current SOTA methods, even those specialized for individual tasks. We hope UniSeg3D can serve as a solid unified baseline and inspire future work. The code will be available at https://dk-liang.github.io/UniSeg3D/.
arxiv情報
著者 | Wei Xu,Chunsheng Shi,Sifan Tu,Xin Zhou,Dingkang Liang,Xiang Bai |
発行日 | 2024-07-03 16:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |