RevCD — Reversed Conditional Diffusion for Generalized Zero-Shot Learning

要約

一般化されたゼロショット学習(GZSL)では、見られたカテゴリでのみ訓練されたモデルを使用して、見られたカテゴリと目に見えないカテゴリの両方を認識することを目指しています。
コンピュータービジョンでは、これは分類問題につながり、視覚機能とテキストコーパスや手動注釈などの利用可能なセマンティック情報との関係を活用することにより、見られたカテゴリの知識が目に見えないカテゴリに転送されます。
ただし、この共同分布を学習するには費用がかかり、対応するセマンティック情報を使用した1対1のトレーニングが必要です。
拡散モデルの条件付きメカニズムを活用することにより、視覚入力から合成されたセマンティック機能を生成することにより、この問題を軽減する逆条件拡散ベースのモデル(REVCD)を提示します。
私たちのREVCDモデルは、正弦波スケジュールのクロスハダマード添加埋め込みと、注意誘導埋め込みのための多目的視覚変圧器で構成されています。
提案されたアプローチは、3つの重要なイノベーションを導入します。
まず、視覚データに基づいてセマンティックスペースを生成するプロセスを逆転させ、より効率的な知識移転を容易にする新しい損失関数を導入します。
第二に、拡散モデルをゼロショット学習に適用します。これは、データの複雑さをキャプチャする際の強みを活用する新しいアプローチです。
第三に、包括的なクロスダタセット評価を通じてモデルのパフォーマンスを実証します。
完全なコードはGitHubで利用可能になります。

要約(オリジナル)

In Generalized Zero-Shot Learning (GZSL), we aim to recognize both seen and unseen categories using a model trained only on seen categories. In computer vision, this translates into a classification problem, where knowledge from seen categories is transferred to unseen categories by exploiting the relationships between visual features and available semantic information, such as text corpora or manual annotations. However, learning this joint distribution is costly and requires one-to-one training with corresponding semantic information. We present a reversed conditional Diffusion-based model (RevCD) that mitigates this issue by generating semantic features synthesized from visual inputs by leveraging Diffusion models’ conditional mechanisms. Our RevCD model consists of a cross Hadamard-Addition embedding of a sinusoidal time schedule and a multi-headed visual transformer for attention-guided embeddings. The proposed approach introduces three key innovations. First, we reverse the process of generating semantic space based on visual data, introducing a novel loss function that facilitates more efficient knowledge transfer. Second, we apply Diffusion models to zero-shot learning – a novel approach that exploits their strengths in capturing data complexity. Third, we demonstrate our model’s performance through a comprehensive cross-dataset evaluation. The complete code will be available on GitHub.

arxiv情報

著者 William Heyden,Habib Ullah,M. Salman Siddiqui,Fadi Al Machot
発行日 2025-05-19 14:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク