X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth Estimation with Cross-Task Distillation and Boundary Correction

要約

単一の RGB 画像から平面領域をセグメント化することは、複雑なシーンを認識する上で特に重要なタスクです。
画像の視覚的特性と幾何学的特性の両方を利用するために、最近のアプローチでは、特徴融合メカニズムと幾何学的制約損失による平面インスタンスと密な深度の共同推定として問題を定式化することがよくあります。
有望な結果にもかかわらず、これらの方法はクロスタスク特徴の抽出を考慮していないため、境界領域ではパフォーマンスが低下します。
これらの制限を克服するために、私たちは、次の 2 つの側面を改善した、プレーン インスタンスのセグメンテーションと深度推定のマルチタスク学習のためのフレームワークである X-PDNet を提案します。
まず、特定のタスクを改善するためにデュアルタスク間の早期の情報共有を促進するクロスタスク蒸留設計を構築します。
次に、境界回帰損失を開発するためにグラウンド トゥルース境界を使用することの現在の制限を強調し、深さ情報を活用して正確な境界領域のセグメンテーションをサポートする新しい方法を提案します。
最後に、スタンフォード 2D-3D-セマンティクス データセットからの 3000 枚以上の画像に手動でアノテーションを付け、平面インスタンスのセグメンテーションの評価に利用できるようにします。
実験を通じて、私たちの提案手法は利点を証明し、ScanNetおよびStanford 2D-3D-Sデータセットの定量的結果において大きな改善マージンでベースラインを上回り、私たちの提案の有効性を実証しました。

要約(オリジナル)

Segmentation of planar regions from a single RGB image is a particularly important task in the perception of complex scenes. To utilize both visual and geometric properties in images, recent approaches often formulate the problem as a joint estimation of planar instances and dense depth through feature fusion mechanisms and geometric constraint losses. Despite promising results, these methods do not consider cross-task feature distillation and perform poorly in boundary regions. To overcome these limitations, we propose X-PDNet, a framework for the multitask learning of plane instance segmentation and depth estimation with improvements in the following two aspects. Firstly, we construct the cross-task distillation design which promotes early information sharing between dual-tasks for specific task improvements. Secondly, we highlight the current limitations of using the ground truth boundary to develop boundary regression loss, and propose a novel method that exploits depth information to support precise boundary region segmentation. Finally, we manually annotate more than 3000 images from Stanford 2D-3D-Semantics dataset and make available for evaluation of plane instance segmentation. Through the experiments, our proposed methods prove the advantages, outperforming the baseline with large improvement margins in the quantitative results on the ScanNet and the Stanford 2D-3D-S dataset, demonstrating the effectiveness of our proposals.

arxiv情報

著者 Duc Cao Dinh,J Lim
発行日 2023-09-15 14:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク