要約
構成ゼロショット学習 (CZSL) は、属性とオブジェクトのペアで構成される未知の構成を予測することを目的としています。
トレーニング中には見えない構図を予測するのは困難な作業です。
この研究では、オープンワールド構成ゼロショット学習 (OW-CZSL) を調査しています。テスト空間には、属性とオブジェクトのすべての潜在的な組み合わせが含まれます。
私たちのアプローチには、属性とオブジェクトの間の自己注意メカニズムを利用して、見える構成から見えない構成へのより良い一般化を達成することが含まれます。
セルフ アテンション メカニズムを利用すると、属性とオブジェクト間の関係を識別するモデルの機能が容易になります。
その後、自己注目のテキスト特徴と視覚特徴の間の類似性が計算され、推論段階で予測が生成されます。
潜在的なテスト空間には、制限のない属性とオブジェクトの組み合わせから生じる、ありえないオブジェクトと属性の組み合わせが含まれる可能性があります。
この問題を軽減するために、ConceptNet の外部知識を活用して、テスト空間を現実的な構成に制限します。
私たちが提案したモデルであるアテンションベースのシンプル プリミティブ (ASP) は、競争力のあるパフォーマンスを実証し、最先端のモデルに匹敵する結果を達成しました。
要約(オリジナル)
Compositional Zero-Shot Learning (CZSL) aims to predict unknown compositions made up of attribute and object pairs. Predicting compositions unseen during training is a challenging task. We are exploring Open World Compositional Zero-Shot Learning (OW-CZSL) in this study, where our test space encompasses all potential combinations of attributes and objects. Our approach involves utilizing the self-attention mechanism between attributes and objects to achieve better generalization from seen to unseen compositions. Utilizing a self-attention mechanism facilitates the model’s ability to identify relationships between attribute and objects. The similarity between the self-attended textual and visual features is subsequently calculated to generate predictions during the inference phase. The potential test space may encompass implausible object-attribute combinations arising from unrestricted attribute-object pairings. To mitigate this issue, we leverage external knowledge from ConceptNet to restrict the test space to realistic compositions. Our proposed model, Attention-based Simple Primitives (ASP), demonstrates competitive performance, achieving results comparable to the state-of-the-art.
arxiv情報
著者 | Ans Munir,Faisal Z. Qureshi,Muhammad Haris Khan,Mohsen Ali |
発行日 | 2024-07-18 17:11:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google