Dual-Modal Prototype Joint Learning for Compositional Zero-Shot Learning

要約

構成ゼロショット学習 (CZSL) は、見た構成から学習した知識を活用して、属性とオブジェクトの新しい構成を認識することを目的としています。
最近のアプローチでは、視覚言語モデル (VLM) を使用してテキストと視覚のモダリティを調整することが検討されています。
これらの方法は通常、プロンプト エンジニアリング、パラメーター調整、モダリティ融合を採用して、CZSL のクラス プロトタイプとして機能するリッチ テキスト プロトタイプを生成します。
ただし、モダリティのギャップにより、テキスト プロトタイプでは、すべてのクラス プロトタイプ、特に視覚的モダリティから直接取得できるきめの細かい特徴を持つプロトタイプの最適な表現を完全にキャプチャできなくなります。
この論文では、CZSL タスクのための新しいデュアルモーダル プロトタイプ共同学習フレームワークを提案します。
VLM に基づく私たちのアプローチは、テキストとビジュアルの両方のモダリティでプロトタイプを導入します。
テキストのプロトタイプは、広範な概念的情報を取得するように最適化されており、目に見えない構成全体でモデルを一般化するのに役立ちます。
一方、視覚的プロトタイプは、モダリティのギャップによって引き起こされる分類エラーを軽減し、きめの細かい詳細をキャプチャして、類似した外観を持つ画像を区別するために使用されます。
これらのプロトタイプを効果的に最適化するために、両方のモダリティの機能を強化する特殊な分解モジュールと共同学習戦略を設計します。
これらのプロトタイプは、トレーニング中に主要なカテゴリ情報を取得するだけでなく、推論中に重要な参照ターゲットとしても機能します。
実験結果は、私たちのアプローチが、公開されている 3 つの CZSL ベンチマークにわたって、クローズドワールド設定では最先端のパフォーマンスを達成し、オープンワールド設定では競争力のあるパフォーマンスを達成することを示しています。
これらの発見は、構成の一般化を進める上での私たちの方法の有効性を検証します。

要約(オリジナル)

Compositional Zero-Shot Learning (CZSL) aims to recognize novel compositions of attributes and objects by leveraging knowledge learned from seen compositions. Recent approaches have explored the use of Vision-Language Models (VLMs) to align textual and visual modalities. These methods typically employ prompt engineering, parameter-tuning, and modality fusion to generate rich textual prototypes that serve as class prototypes for CZSL. However, the modality gap results in textual prototypes being unable to fully capture the optimal representations of all class prototypes, particularly those with fine-grained features, which can be directly obtained from the visual modality. In this paper, we propose a novel Dual-Modal Prototype Joint Learning framework for the CZSL task. Our approach, based on VLMs, introduces prototypes in both the textual and visual modalities. The textual prototype is optimized to capture broad conceptual information, aiding the model’s generalization across unseen compositions. Meanwhile, the visual prototype is used to mitigate the classification errors caused by the modality gap and capture fine-grained details to distinguish images with similar appearances. To effectively optimize these prototypes, we design specialized decomposition modules and a joint learning strategy that enrich the features from both modalities. These prototypes not only capture key category information during training but also serve as crucial reference targets during inference. Experimental results demonstrate that our approach achieves state-of-the-art performance in the closed-world setting and competitive performance in the open-world setting across three publicly available CZSL benchmarks. These findings validate the effectiveness of our method in advancing compositional generalization.

arxiv情報

著者 Shiyu Zhang,Cheng Yan,Yang Liu,Chenchen Jing,Lei Zhou,Wenjun Wang
発行日 2025-01-23 17:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク