要約
ビジョン言語モデル(VLM)は、マルチモーダルタスク、特に構成推論(CR)タスクに不可欠であり、視覚とテキストの埋め込みの間のきめ細かいセマンティックな違いを区別する必要があります。
ただし、既存の方法は主にテキストベースのハードネガティブサンプルを生成し、画像ベースのネガティブサンプルの重要性を無視してモデルを微調整し、視覚エンコーダーのトレーニングが不十分であり、最終的にモデルの全体的なパフォーマンスに影響を与えます。
さらに、負のサンプルは通常、難易度を考慮せずに均一に処理され、正のサンプルのアライメントは不十分であり、困難なサンプルペアの整合に課題につながります。
これらの問題に対処するために、適応的なハードネガティブ摂動学習(AHNPL)を提案します。
AHHNPLは、テキストベースのハードネガを視覚ドメインに変換して、モデルをトレーニングするために意味的に妨げられた画像ベースのネガを生成し、それによって全体的なパフォーマンスを向上させます。
AHNPLはまた、マルチモーダルのハードネガティブ損失を使用して対照的な学習アプローチを導入して、各モダリティ内のハードネガのモデルの識別を改善し、サンプルの難易度に応じてコントラストマージンを調整して挑戦的なサンプルペアの区別を強化する動的マージン損失を改善します。
3つのパブリックデータセットでの実験は、私たちの方法が複雑なCRタスクでVLMSのパフォーマンスを効果的に向上させることを示しています。
ソースコードは、https://github.com/nynu-bdai/ahnplで入手できます。
要約(オリジナル)
Vision-Language Models (VLMs) are essential for multimodal tasks, especially compositional reasoning (CR) tasks, which require distinguishing fine-grained semantic differences between visual and textual embeddings. However, existing methods primarily fine-tune the model by generating text-based hard negative samples, neglecting the importance of image-based negative samples, which results in insufficient training of the visual encoder and ultimately impacts the overall performance of the model. Moreover, negative samples are typically treated uniformly, without considering their difficulty levels, and the alignment of positive samples is insufficient, which leads to challenges in aligning difficult sample pairs. To address these issues, we propose Adaptive Hard Negative Perturbation Learning (AHNPL). AHNPL translates text-based hard negatives into the visual domain to generate semantically disturbed image-based negatives for training the model, thereby enhancing its overall performance. AHNPL also introduces a contrastive learning approach using a multimodal hard negative loss to improve the model’s discrimination of hard negatives within each modality and a dynamic margin loss that adjusts the contrastive margin according to sample difficulty to enhance the distinction of challenging sample pairs. Experiments on three public datasets demonstrate that our method effectively boosts VLMs’ performance on complex CR tasks. The source code is available at https://github.com/nynu-BDAI/AHNPL.
arxiv情報
著者 | Xin Huang,Ruibin Li,Tong Jia,Wei Zheng,Ya Wang |
発行日 | 2025-05-21 14:28:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google