Semantic Cross Attention for Few-shot Learning

要約

最近注目されているのが FSL (Few-Shot Learning) です。
既存のアプローチの中で、メトリクスベースの方法は、類似したサンプルを可能な限り近づけ、類似していないサンプルを可能な限り近づけ、有望な結果を達成できる埋め込みネットワークをトレーニングすることを目的としています。
FSL は、少数の画像のみを使用して、画像分類問題の新しいクラスに一般化できるモデルをトレーニングすることを特徴としていますが、この設定では、画像の外観の変化を識別できる視覚的特徴を学習することが困難になります。
モデルのトレーニングは間違った方向に進む可能性があります。同じセマンティック クラスの画像は異なる外観を持つ可能性があるのに対し、異なるセマンティック クラスの画像は同様の外観を共有する可能性があるからです。
FSL は、識別機能表現を学習するために追加のセマンティック機能の恩恵を受けることができると主張します。
したがって、この研究では、FSL タスクのパフォーマンスを向上させるための補助タスクとして、ラベル テキストの意味的特徴を表示するためのマルチタスク学習アプローチを提案しています。
提案されたモデルは、セマンティック機能として単語埋め込み表現を使用して、埋め込みネットワークとセマンティック相互注意モジュールをトレーニングし、セマンティック機能を典型的な視覚モーダルに橋渡しします。
提案されたアプローチは単純ですが、優れた結果が得られます。
提案されたアプローチを、以前の 2 つのメトリックベースの FSL メソッドに適用します。これらはすべて、パフォーマンスを大幅に向上させることができます。
モデルのソース コードは github からアクセスできます。

要約(オリジナル)

Few-shot learning (FSL) has attracted considerable attention recently. Among existing approaches, the metric-based method aims to train an embedding network that can make similar samples close while dissimilar samples as far as possible and achieves promising results. FSL is characterized by using only a few images to train a model that can generalize to novel classes in image classification problems, but this setting makes it difficult to learn the visual features that can identify the images’ appearance variations. The model training is likely to move in the wrong direction, as the images in an identical semantic class may have dissimilar appearances, whereas the images in different semantic classes may share a similar appearance. We argue that FSL can benefit from additional semantic features to learn discriminative feature representations. Thus, this study proposes a multi-task learning approach to view semantic features of label text as an auxiliary task to help boost the performance of the FSL task. Our proposed model uses word-embedding representations as semantic features to help train the embedding network and a semantic cross-attention module to bridge the semantic features into the typical visual modal. The proposed approach is simple, but produces excellent results. We apply our proposed approach to two previous metric-based FSL methods, all of which can substantially improve performance. The source code for our model is accessible from github.

arxiv情報

著者 Bin Xiao,Chien-Liang Liu,Wen-Hoar Hsaio
発行日 2022-10-12 15:24:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク