TsCA: On the Semantic Consistency Alignment via Conditional Transport for Compositional Zero-Shot Learning

要約

構成ゼロショット学習 (CZSL) は、基本コンポーネントの共有知識を活用して、新しい \textit{state-object} 構成を認識することを目的としています。
かなりの進歩にもかかわらず、意味的に類似したマルチモーダル表現間のバイアスを効果的に調整すること、および事前に訓練された知識を新しい構成コンテキストに一般化することは、依然として永続的な課題です。
この論文では、私たちの関心は、条件付きトランスポート (CT) 理論と、CZSL における視覚と意味の相互作用に対するその相同性を再検討し、さらに、これらの問題に適切に対処する新しい Trisets Consistency Alignment フレームワーク (TsCA と呼ばれる) を提案することです。
具体的には、3 つの異なるが意味的に相同なセット、つまりパッチ、プリミティブ、およびコンポジションを利用して、ペアワイズ CT コストを構築し、それらの意味上の不一致を最小限に抑えます。
これらのセット内の転送の一貫性をさらに確保するために、モダリティに関係なく、トランスポート フロー中の自己マッピングの特徴の一貫性を保証することで学習を改善するサイクル一貫性制約を実装します。
さらに、CT 計画をオープンワールド設定に拡張することで、モデルが実行不可能なペアを効果的に除外できるようになり、推論が高速化され、精度も向上します。
提案された方法の有効性を検証するために広範な実験が行われます。

要約(オリジナル)

Compositional Zero-Shot Learning (CZSL) aims to recognize novel \textit{state-object} compositions by leveraging the shared knowledge of their primitive components. Despite considerable progress, effectively calibrating the bias between semantically similar multimodal representations, as well as generalizing pre-trained knowledge to novel compositional contexts, remains an enduring challenge. In this paper, our interest is to revisit the conditional transport (CT) theory and its homology to the visual-semantics interaction in CZSL and further, propose a novel Trisets Consistency Alignment framework (dubbed TsCA) that well-addresses these issues. Concretely, we utilize three distinct yet semantically homologous sets, i.e., patches, primitives, and compositions, to construct pairwise CT costs to minimize their semantic discrepancies. To further ensure the consistency transfer within these sets, we implement a cycle-consistency constraint that refines the learning by guaranteeing the feature consistency of the self-mapping during transport flow, regardless of modality. Moreover, we extend the CT plans to an open-world setting, which enables the model to effectively filter out unfeasible pairs, thereby speeding up the inference as well as increasing the accuracy. Extensive experiments are conducted to verify the effectiveness of the proposed method.

arxiv情報

著者 Miaoge Li,Jingcai Guo,Richard Yi Da Xu,Dongsheng Wang,Xiaofeng Cao,Song Guo
発行日 2024-08-16 12:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク