Learning Attention as Disentangler for Compositional Zero-shot Learning

要約

合成ゼロショット学習 (CZSL) は、目に見える合成から視覚的な概念 (つまり、属性とオブジェクト) を学習し、概念の知識を目に見えない合成に結合することを目的としています。
CZSL の鍵は、属性オブジェクト構成のもつれを解くことを学習することです。
この目的のために、クロスアテンションを構成的ディエンタングラーとして利用して、エンタングルされていない概念の埋め込みを学習することを提案します。
たとえば、目に見えない構図「黄色い花」を認識したい場合、属性概念「黄色」とオブジェクト概念「花」をそれぞれ異なる黄色のオブジェクトと異なる花から学習できます。
もつれを解く人が興味の概念を学習することをさらに制限するために、注意レベルで正則化を採用します。
具体的には、クロスアテンション モジュールの機能類似性メトリックとしてアース ムーバーズ ディスタンス (EMD) を適応させます。
さらに、コンセプトのもつれの解消の恩恵を受けて、推論プロセスを改善し、複数のコンセプト確率を組み合わせることで予測スコアを調整します。
3 つの CZSL ベンチマーク データセットでの包括的な実験は、クローズド ワールドとオープン ワールドの両方の設定で、私たちの方法が以前の研究よりも大幅に優れていることを示しており、新しい最先端技術を確立しています。

要約(オリジナル)

Compositional zero-shot learning (CZSL) aims at learning visual concepts (i.e., attributes and objects) from seen compositions and combining concept knowledge into unseen compositions. The key to CZSL is learning the disentanglement of the attribute-object composition. To this end, we propose to exploit cross-attentions as compositional disentanglers to learn disentangled concept embeddings. For example, if we want to recognize an unseen composition ‘yellow flower’, we can learn the attribute concept ‘yellow’ and object concept ‘flower’ from different yellow objects and different flowers respectively. To further constrain the disentanglers to learn the concept of interest, we employ a regularization at the attention level. Specifically, we adapt the earth mover’s distance (EMD) as a feature similarity metric in the cross-attention module. Moreover, benefiting from concept disentanglement, we improve the inference process and tune the prediction score by combining multiple concept probabilities. Comprehensive experiments on three CZSL benchmark datasets demonstrate that our method significantly outperforms previous works in both closed- and open-world settings, establishing a new state-of-the-art.

arxiv情報

著者 Shaozhe Hao,Kai Han,Kwan-Yee K. Wong
発行日 2023-03-27 11:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク