要約
前景のセグメンテーションはコンピュータ ビジョンの基本的なタスクであり、さまざまなサブディビジョン タスクが含まれます。
これまでの研究では通常、タスクごとにタスク固有のアーキテクチャが設計されており、統一性の欠如につながりました。
さらに、それらは主に、背景から効果的に区別することなく、前景のオブジェクトを認識することに重点を置いています。
この論文では、背景と前景との関係の重要性を強調します。
複数の前景タスクを処理できる前景オブジェクト ユニバーサル セグメンテーション フレームワークである FOCUS を紹介します。
物体のエッジ情報を利用して画像の特徴を強化するマルチスケールセマンティックネットワークを開発します。
境界を意識したセグメンテーションを実現するために、対照学習戦略を統合してマルチモーダル特徴空間の予測マスクを洗練する新しい蒸留方法を提案します。
私たちは 5 つのタスクにわたる合計 13 のデータセットに対して広範な実験を実施しました。その結果、FOCUS がほとんどの指標において最先端のタスク固有のモデルよりも一貫して優れていることが実証されました。
要約(オリジナル)
Foreground segmentation is a fundamental task in computer vision, encompassing various subdivision tasks. Previous research has typically designed task-specific architectures for each task, leading to a lack of unification. Moreover, they primarily focus on recognizing foreground objects without effectively distinguishing them from the background. In this paper, we emphasize the importance of the background and its relationship with the foreground. We introduce FOCUS, the Foreground ObjeCts Universal Segmentation framework that can handle multiple foreground tasks. We develop a multi-scale semantic network using the edge information of objects to enhance image features. To achieve boundary-aware segmentation, we propose a novel distillation method, integrating the contrastive learning strategy to refine the prediction mask in multi-modal feature space. We conduct extensive experiments on a total of 13 datasets across 5 tasks, and the results demonstrate that FOCUS consistently outperforms the state-of-the-art task-specific models on most metrics.
arxiv情報
著者 | Zuyao You,Lingyu Kong,Lingchen Meng,Zuxuan Wu |
発行日 | 2025-01-09 13:44:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google