SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition


マルチラベル画像認識は、コンピューター ビジョンの基本的なタスクです。
最近、ビジョン言語モデル (VLM) がこの分野で顕著な進歩を遂げています。
ただし、以前の方法では、言語モデルの豊富な知識を効果的に活用できず、多くの場合、ラベル セマンティクスを視覚的特徴に一方向的に組み込んでいます。
これらの問題を克服するために、VLM の可能性を増幅するためのゲート アラインメントを使用した分割および合成プロンプト (SSPA) フレームワークを提案します。
具体的には、LLM からの固有の知識を関連付けるコンテキスト内学習アプローチを開発します。
次に、最初に一般的な知識と下流のラベル セマンティクスを個別にモデル化し、次にそれらをクォータニオン ネットワークを通じて慎重に集約する、新しい分割合成プロンプティング (SSP) 戦略を提案します。
さらに、冗長なクロスモーダル情報を排除しながら、視覚的モダリティと言語モダリティを双方向に対話させるゲーテッド デュアルモーダル アライメント (GDMA) を提案し、より効率的な領域レベルのアライメントを可能にします。
以前の研究のように鋭い方法で最終予測を行うのではなく、すべての画像領域からの結果を共同で考慮するソフト アグリゲーターを提案します。
柔軟なプロンプトとゲート調整の助けを借りて、SSPA は特定のドメインに一般化できます。
3 つのドメイン (つまり、自然、歩行者の属性、リモート センシング) からの 9 つのデータセットに対する広範な実験により、SSPA の最先端のパフォーマンスが実証されました。
さらなる分析により、SSP の有効性と GDMA の解釈可能性が検証されます。


Multi-label image recognition is a fundamental task in computer vision. Recently, Vision-Language Models (VLMs) have made notable advancements in this area. However, previous methods fail to effectively leverage the rich knowledge in language models and often incorporate label semantics into visual features unidirectionally. To overcome these problems, we propose a Split-and-Synthesize Prompting with Gated Alignments (SSPA) framework to amplify the potential of VLMs. Specifically, we develop an in-context learning approach to associate the inherent knowledge from LLMs. Then we propose a novel Split-and-Synthesize Prompting (SSP) strategy to first model the generic knowledge and downstream label semantics individually and then aggregate them carefully through the quaternion network. Moreover, we present Gated Dual-Modal Alignments (GDMA) to bidirectionally interact visual and linguistic modalities while eliminating redundant cross-modal information, enabling more efficient region-level alignments. Rather than making the final prediction by a sharp manner in previous works, we propose a soft aggregator to jointly consider results from all image regions. With the help of flexible prompting and gated alignments, SSPA is generalizable to specific domains. Extensive experiments on nine datasets from three domains (i.e., natural, pedestrian attributes and remote sensing) demonstrate the state-of-the-art performance of SSPA. Further analyses verify the effectiveness of SSP and the interpretability of GDMA. The code will be made public.


著者 Hao Tan,Zichang Tan,Jun Li,Jun Wan,Zhen Lei,Stan Z. Li
発行日 2024-07-30 15:58:25+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV パーマリンク