要約
構成ゼロショット学習 (CZSL) は、目に見える構成から意味論的なプリミティブ (属性とオブジェクト) を学習し、目に見えない属性とオブジェクトの構成を認識することを目的としています。
既存の CZSL データセットは単一の属性に焦点を当てており、オブジェクトが相互に関連する複数の属性を自然に示すという事実を無視しています。
現実世界のオブジェクトは相互に関連する複数の属性を持っていることが多く、現在のデータセットの狭い属性範囲と単一の属性ラベル付けによりアノテーションのバイアスが生じ、モデルのパフォーマンスと評価が損なわれます。
これらの制限に対処するために、包括的で代表的な多様な属性アノテーションを備えた 18,217 枚の画像と 11,067 枚の合成を含む、マルチ属性合成 (MAC) データセットを導入します。
MAC には、オブジェクトあたり平均 30.2 個の属性、属性あたり 65.4 個のオブジェクトが含まれており、複数属性の構成予測の向上が容易になります。
私たちのデータセットは、より深い意味論的理解と高次の属性の関連付けをサポートし、CZSL タスクのためのより現実的で挑戦的なベンチマークを提供します。
また、複数属性の構成学習のためのソリューションを開発し、属性とオブジェクトを解きほぐすための MM エンコーダーを提案します。
要約(オリジナル)
Compositional Zero-Shot Learning (CZSL) aims to learn semantic primitives (attributes and objects) from seen compositions and recognize unseen attribute-object compositions. Existing CZSL datasets focus on single attributes, neglecting the fact that objects naturally exhibit multiple interrelated attributes. Real-world objects often possess multiple interrelated attributes, and current datasets’ narrow attribute scope and single attribute labeling introduce annotation biases, undermining model performance and evaluation. To address these limitations, we introduce the Multi-Attribute Composition (MAC) dataset, encompassing 18,217 images and 11,067 compositions with comprehensive, representative, and diverse attribute annotations. MAC includes an average of 30.2 attributes per object and 65.4 objects per attribute, facilitating better multi-attribute composition predictions. Our dataset supports deeper semantic understanding and higher-order attribute associations, providing a more realistic and challenging benchmark for the CZSL task. We also develop solutions for multi-attribute compositional learning and propose the MM-encoder to disentangling the attributes and objects.
arxiv情報
著者 | Shuo Xu,Sai Wang,Xinyue Hu,Yutian Lin,Bo Du,Yu Wu |
発行日 | 2024-06-18 16:24:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google