Label2Label: A Language Modeling Framework for Multi-Attribute Learning

要約

オブジェクトは通常、複数の属性に関連付けられており、これらの属性は多くの場合、高い相関関係を示します。
属性間の複雑な関係をモデル化することは、多属性学習にとって大きな課題となります。
このホワイトペーパーでは、複雑な属性の相関関係を活用するために、Label2Labelという名前のシンプルでありながら汎用的なフレームワークを提案します。
Label2Labelは、言語モデリングの観点からの多属性予測の最初の試みです。
具体的には、各属性ラベルをサンプルを説明する「単語」として扱います。
各サンプルには複数の属性ラベルが付けられているため、これらの「単語」は、対応するサンプルの意味情報を表す、順序付けられていないが意味のある「文」を自然に形成します。
Label2Labelは、NLPでの事前トレーニング言語モデルの目覚ましい成功に触発され、画像調整されたマスクされた言語モデルを導入します。これは、ラベル「文」から「単語」トークンの一部をランダムにマスクし、マスクされた「
文」と画像の特徴によって伝えられる文脈。
私たちの直感では、ニューラルネットがコンテキストと残りの属性ヒントに基づいて欠落している属性を推測できる場合、インスタンスごとの属性の関係は十分に把握されています。
Label2Labelは、概念的に単純で、経験的に強力です。
タスク固有の事前知識と高度に専門化されたネットワーク設計を組み込むことなく、私たちのアプローチは、高度にカスタマイズされたドメイン固有の方法と比較して、3つの異なる多属性学習タスクで最先端の結果を達成します。
コードはhttps://github.com/Li-Wanhua/Label2Labelで入手できます。

要約(オリジナル)

Objects are usually associated with multiple attributes, and these attributes often exhibit high correlations. Modeling complex relationships between attributes poses a great challenge for multi-attribute learning. This paper proposes a simple yet generic framework named Label2Label to exploit the complex attribute correlations. Label2Label is the first attempt for multi-attribute prediction from the perspective of language modeling. Specifically, it treats each attribute label as a ‘word’ describing the sample. As each sample is annotated with multiple attribute labels, these ‘words’ will naturally form an unordered but meaningful ‘sentence’, which depicts the semantic information of the corresponding sample. Inspired by the remarkable success of pre-training language models in NLP, Label2Label introduces an image-conditioned masked language model, which randomly masks some of the ‘word’ tokens from the label ‘sentence’ and aims to recover them based on the masked ‘sentence’ and the context conveyed by image features. Our intuition is that the instance-wise attribute relations are well grasped if the neural net can infer the missing attributes based on the context and the remaining attribute hints. Label2Label is conceptually simple and empirically powerful. Without incorporating task-specific prior knowledge and highly specialized network designs, our approach achieves state-of-the-art results on three different multi-attribute learning tasks, compared to highly customized domain-specific methods. Code is available at https://github.com/Li-Wanhua/Label2Label.

arxiv情報

著者 Wanhua Li,Zhexuan Cao,Jianjiang Feng,Jie Zhou,Jiwen Lu
発行日 2022-07-18 15:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク