要約
画像内の複数の新規クラスを識別することは、オープンボキャブラリーマルチラベル認識として知られており、コンピュータービジョンにおける困難な作業です。
最近の研究では、Clipなどの強力なビジョン言語モデルの転送を調査しています。
ただし、これらのアプローチは2つの重要な課題に直面しています。(1)クリップのローカルセマンティクスは、そのグローバルなトレーニング前の目標のために破壊され、信頼できない地域の予測をもたらします。
(2)画像領域と候補ラベル間の一致するプロパティは無視されており、代わりに平均プーリングなどの素朴な特徴集計に依存しており、これは無関係な領域からの偽の予測につながります。
この論文では、上記の問題に効果的に対処する新しいフレームワークであるRAM(回復と一致)を提示します。
最初の問題に取り組むために、はしごローカルアダプター(LLA)を提案して、ローカル地域に再焦点を合わせ、メモリに優しい方法でローカルセマンティクスを回復します。
2番目の号では、タスクを最適な輸送問題として策定することにより、無意味なマッチングを非GTラベルに抑制するために、知識制限の最適輸送(KCOT)を提案します。
その結果、RAMは3つの異なるドメインからさまざまなデータセットで最新のパフォーマンスを達成し、既存の方法を高める大きな可能性を示しています。
コード:https://github.com/erictan7/ram。
要約(オリジナル)
Identifying multiple novel classes in an image, known as open-vocabulary multi-label recognition, is a challenging task in computer vision. Recent studies explore the transfer of powerful vision-language models such as CLIP. However, these approaches face two critical challenges: (1) The local semantics of CLIP are disrupted due to its global pre-training objectives, resulting in unreliable regional predictions. (2) The matching property between image regions and candidate labels has been neglected, relying instead on naive feature aggregation such as average pooling, which leads to spurious predictions from irrelevant regions. In this paper, we present RAM (Recover And Match), a novel framework that effectively addresses the above issues. To tackle the first problem, we propose Ladder Local Adapter (LLA) to enforce refocusing on local regions, recovering local semantics in a memory-friendly way. For the second issue, we propose Knowledge-Constrained Optimal Transport (KCOT) to suppress meaningless matching to non-GT labels by formulating the task as an optimal transport problem. As a result, RAM achieves state-of-the-art performance on various datasets from three distinct domains, and shows great potential to boost the existing methods. Code: https://github.com/EricTan7/RAM.
arxiv情報
著者 | Hao Tan,Zichang Tan,Jun Li,Ajian Liu,Jun Wan,Zhen Lei |
発行日 | 2025-03-19 15:33:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google