要約
我々は、単一モデル内でパノプティック、セマンティック、インスタンス、インタラクティブ、参照、およびオープン語彙のセグメンテーション タスクを実現する統合 3D シーン理解フレームワークである UniSeg3D を提案します。
従来の 3D セグメンテーションのアプローチのほとんどは、通常、特定のタスクに合わせて調整されており、3D シーンの理解をタスク固有の視点に限定していました。
対照的に、提案手法は 6 つのタスクを同じ Transformer で処理される統一表現に統合します。
タスク間の知識共有が容易になり、包括的な 3D シーンの理解を促進します。
マルチタスクの統合を活用するために、タスク間の明示的な関連付けを確立することでパフォーマンスを向上させます。
具体的には、タスク固有の知識をさまざまなタスク間で伝達するための知識の蒸留と対比学習方法を設計します。
ScanNet20、ScanRefer、ScanNet200 を含む 3 つのベンチマークでの実験では、UniSeg3D が、たとえ個々のタスクに特化したものであっても、現在の SOTA 手法よりも一貫して優れていることが実証されました。
UniSeg3D が強固な統一ベースラインとして機能し、将来の研究にインスピレーションを与えることができることを願っています。
コードとモデルは https://github.com/dk-liang/UniSeg3D で入手できます。
要約(オリジナル)
We propose UniSeg3D, a unified 3D scene understanding framework that achieves panoptic, semantic, instance, interactive, referring, and open-vocabulary segmentation tasks within a single model. Most previous 3D segmentation approaches are typically tailored to a specific task, limiting their understanding of 3D scenes to a task-specific perspective. In contrast, the proposed method unifies six tasks into unified representations processed by the same Transformer. It facilitates inter-task knowledge sharing, thereby promoting comprehensive 3D scene understanding. To take advantage of multi-task unification, we enhance performance by establishing explicit inter-task associations. Specifically, we design knowledge distillation and contrastive learning methods to transfer task-specific knowledge across different tasks. Experiments on three benchmarks, including ScanNet20, ScanRefer, and ScanNet200, demonstrate that the UniSeg3D consistently outperforms current SOTA methods, even those specialized for individual tasks. We hope UniSeg3D can serve as a solid unified baseline and inspire future work. Code and models are available at https://github.com/dk-liang/UniSeg3D.
arxiv情報
著者 | Wei Xu,Chunsheng Shi,Sifan Tu,Xin Zhou,Dingkang Liang,Xiang Bai |
発行日 | 2024-11-27 15:08:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google