要約
現在の少数のショットセグメンテーションの文献には、クエリとサンプル画像の視覚的類似性を超えて、最適ではない予測につながるマスク選択方法がありません。
マルチモーダルキューを活用してマスクの提案を堅牢にフィルタリングおよびマージするプラグアンドプレイランキングシステムであるMARSを提示します。
単一のクエリ画像のマスク予測のセットから始めると、結果を改善するためにそれらを採点、フィルタリング、マージします。
提案は、ローカルおよびグローバルレベルで計算されたマルチモーダルスコアを使用して評価されます。
COCO-20I、PASCAL-5I、LVIS-92I、およびFSS-1000に関する広範な実験は、4つのスコアリングコンポーネントすべてを統合することが堅牢なランキングに不可欠であり、貢献を検証することを示しています。
火星はさまざまなマスク提案システムと楽に統合できるため、幅広いトップパフォーマーの方法に展開し、複数の既存のベンチマークで新しい最先端の結果を達成します。
コードは受け入れられると利用可能になります。
要約(オリジナル)
Current Few Shot Segmentation literature lacks a mask selection method that goes beyond visual similarity between the query and example images, leading to suboptimal predictions. We present MARS, a plug-and-play ranking system that leverages multimodal cues to filter and merge mask proposals robustly. Starting from a set of mask predictions for a single query image, we score, filter, and merge them to improve results. Proposals are evaluated using multimodal scores computed at local and global levels. Extensive experiments on COCO-20i, Pascal-5i, LVIS-92i, and FSS-1000 demonstrate that integrating all four scoring components is crucial for robust ranking, validating our contribution. As MARS can be effortlessly integrated with various mask proposal systems, we deploy it across a wide range of top-performer methods and achieve new state-of-the-art results on multiple existing benchmarks. Code will be available upon acceptance.
arxiv情報
著者 | Nico Catalano,Stefano Samele,Paolo Pertino,Matteo Matteucci |
発行日 | 2025-04-10 17:53:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google