Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning

要約

最近の合成ゼロショット学習 (CZSL) メソッドは、合成された状態オブジェクトのペアに対してのみトレーニング可能なプロンプトを構築することにより、事前トレーニング済みの視覚言語モデル (VLM) を適応させます。
これらの方法は、見た構成の共同表現を学習することに依存しており、状態とオブジェクトの明示的なモデリングを無視しているため、事前に訓練された知識の活用と目に見えない構成への一般化が制限されています。
ソリューションの普遍性に特に焦点を当てて、この作業では、状態、オブジェクト、構成を共同でモデル化するために 3 つの識別ブランチ (つまり、マルチパス) を確立する CZSL モデルの新しいパラダイムを提案します。
提示された Troika は、ブランチ固有のプロンプト表現を分解された視覚的特徴に合わせた実装です。
意味的に類似したマルチモーダル表現間の偏りを調整するために、プロンプト表現を現在のビジュアル コンテンツにシフトするクロスモーダル トラクション モジュールを Troika にさらに考案します。
私たちは 3 つの一般的なベンチマークで大規模な実験を行い、クローズド ワールドとオープン ワールドの両方の設定で、私たちの方法が既存の方法よりも大幅に優れています。

要約(オリジナル)

Recent compositional zero-shot learning (CZSL) methods adapt pre-trained vision-language models (VLMs) by constructing trainable prompts only for composed state-object pairs. Relying on learning the joint representation of seen compositions, these methods ignore the explicit modeling of the state and object, thus limiting the exploitation of pre-trained knowledge and generalization to unseen compositions. With a particular focus on the universality of the solution, in this work, we propose a novel paradigm for CZSL models that establishes three identification branches (i.e., Multi-Path) to jointly model the state, object, and composition. The presented Troika is our implementation that aligns the branch-specific prompt representations with decomposed visual features. To calibrate the bias between semantically similar multi-modal representations, we further devise a Cross-Modal Traction module into Troika that shifts the prompt representation towards the current visual content. We conduct extensive experiments on three popular benchmarks, where our method significantly outperforms existing methods in both closed-world and open-world settings.

arxiv情報

著者 Siteng Huang,Biao Gong,Yutong Feng,Yiliang Lv,Donglin Wang
発行日 2023-03-27 14:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク