Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior

要約

二分法画像セグメンテーション(DIS)は、高解像度の自然画像の高精度オブジェクトセグメンテーションタスクです。
現在の主流の方法は、ローカルの詳細の最適化に焦点を当てていますが、オブジェクトの完全性をモデル化するという基本的な課題を見落としています。
深さの整合性マップに暗黙の深さの整合性が暗示されていることがわかりました。
上記の調査結果に基づいて、高精度の二分画画像セグメンテーションのための新しいパッチ深度融合ネットワーク(PDFNET)を設計しました。
PDFNETのコアは、3つの側面で構成されています。
まず、オブジェクトの知覚は、マルチモーダル入力融合によって強化されます。
パッチの選択と強化と相まって、微調整された戦略をパッチを利用することにより、詳細に対する感度が向上します。
第二に、深度マップに分布した深さの整合性優先度を活用することにより、深度マップでのセグメンテーション結果の均一性を高めるための整合性優先損失を提案します。
最後に、共有エンコーダーの機能を利用し、シンプルな深度改良デコーダーを介して、共有エンコーダーが画像に微妙な深さ関連情報をキャプチャする能力を向上させます。
DIS-5Kデータセットでの実験は、PDFNETが最先端の非拡散法を大幅に上回ることを示しています。
深さの整合性優先度が組み込まれているため、PDFNETは、拡散ベースの方法のパラメーターの11%未満を使用しながら、最新の拡散ベースの方法のパフォーマンスを達成または上回ることさえあります。
https://github.com/tennine2077/pdfnetのソースコード

要約(オリジナル)

Dichotomous Image Segmentation (DIS) is a high-precision object segmentation task for high-resolution natural images. The current mainstream methods focus on the optimization of local details but overlook the fundamental challenge of modeling the integrity of objects. We have found that the depth integrity-prior implicit in the the pseudo-depth maps generated by Depth Anything Model v2 and the local detail features of image patches can jointly address the above dilemmas. Based on the above findings, we have designed a novel Patch-Depth Fusion Network (PDFNet) for high-precision dichotomous image segmentation. The core of PDFNet consists of three aspects. Firstly, the object perception is enhanced through multi-modal input fusion. By utilizing the patch fine-grained strategy, coupled with patch selection and enhancement, the sensitivity to details is improved. Secondly, by leveraging the depth integrity-prior distributed in the depth maps, we propose an integrity-prior loss to enhance the uniformity of the segmentation results in the depth maps. Finally, we utilize the features of the shared encoder and, through a simple depth refinement decoder, improve the ability of the shared encoder to capture subtle depth-related information in the images. Experiments on the DIS-5K dataset show that PDFNet significantly outperforms state-of-the-art non-diffusion methods. Due to the incorporation of the depth integrity-prior, PDFNet achieves or even surpassing the performance of the latest diffusion-based methods while using less than 11% of the parameters of diffusion-based methods. The source code at https://github.com/Tennine2077/PDFNet

arxiv情報

著者 Xianjie Liu,Keren Fu,Qijun Zhao
発行日 2025-03-28 14:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク