Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching

要約

大規模な事前トレーニングを活用したビジョン基盤モデルは、オープンワールドの画像理解において大きな可能性を示します。
ただし、さまざまな言語タスクに直接取り組むことに優れている大規模な言語モデルとは異なり、ビジョン基盤モデルでは、タスク固有のモデル構造とそれに続く特定のタスクの微調整が必​​要です。
この研究では、既製の視覚基盤モデルを利用してさまざまな知覚タスクに対処する新しい知覚パラダイムである Matcher を紹介します。
Matcher は、トレーニングなしでコンテキスト内サンプルを使用してあらゆるものをセグメント化できます。
さらに、Matcher フレームワーク内で 3 つの効果的なコンポーネントを設計し、これらの基礎モデルと連携し、多様な認識タスクでその可能性を最大限に引き出します。
Matcher は、トレーニングなしで、さまざまなセグメンテーション タスクにわたって優れた汎化パフォーマンスを示します。
たとえば、一例では COCO-20$^i$ で 52.7% の mIoU を達成し、最先端のスペシャリスト モデルを 1.6% 上回っています。
さらに、Matcher はワンショット セマンティック セグメンテーションに関して提案された LVIS-92$^i$ で 33.0% の mIoU を達成し、最先端のジェネラリスト モデルを 14.4% 上回っています。
私たちの視覚化の結果は、実際の画像に適用された場合の Matcher のオープンワールドの汎用性と柔軟性をさらに示しています。
私たちのコードは https://github.com/aim-uofa/Matcher にあります。

要約(オリジナル)

Powered by large-scale pre-training, vision foundation models exhibit significant potential in open-world image understanding. However, unlike large language models that excel at directly tackling various language tasks, vision foundation models require a task-specific model structure followed by fine-tuning on specific tasks. In this work, we present Matcher, a novel perception paradigm that utilizes off-the-shelf vision foundation models to address various perception tasks. Matcher can segment anything by using an in-context example without training. Additionally, we design three effective components within the Matcher framework to collaborate with these foundation models and unleash their full potential in diverse perception tasks. Matcher demonstrates impressive generalization performance across various segmentation tasks, all without training. For example, it achieves 52.7% mIoU on COCO-20$^i$ with one example, surpassing the state-of-the-art specialist model by 1.6%. In addition, Matcher achieves 33.0% mIoU on the proposed LVIS-92$^i$ for one-shot semantic segmentation, outperforming the state-of-the-art generalist model by 14.4%. Our visualization results further showcase the open-world generality and flexibility of Matcher when applied to images in the wild. Our code can be found at https://github.com/aim-uofa/Matcher.

arxiv情報

著者 Yang Liu,Muzhi Zhu,Hengtao Li,Hao Chen,Xinlong Wang,Chunhua Shen
発行日 2024-01-19 13:03:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク