要約
少数精鋭の視覚認識とは、少数のラベル付けされたインスタンスから新しい視覚的概念を認識することである。多くの少数ショット視覚認識手法は、クエリ表現とクラス表現を比較してクエリインスタンスのカテゴリを予測する、メトリックベースのメタ学習パラダイムを採用している。しかし、現在のメトリックベースの手法は、一般に全てのインスタンスを平等に扱い、その結果、クラスレベル表現のためにインスタンスレベル表現を要約する際に、全てのインスタンスが等しく重要であるとは限らないことを考慮して、偏ったクラス表現を得ることが多い。例えば、一部のインスタンスは、背景や無関係な概念の情報など、代表的でない情報を含んでいる可能性があり、結果を歪めてしまう。このような問題を解決するために、我々は、少数ショット視覚認識のためのインスタンス適応的クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタ学習の枠組みを提案する。具体的には、クラス表現を生成する際の偏った表現問題を解決するために、対応するクラスのサポートセットにおける相対的重要性に応じて、異なるインスタンスに対して適応的な重みを学習し割り当てる、適応的インスタンス再評価ネットワークを開発する。さらに、改良された双線形インスタンス表現を設計し、2つの新しい構造損失、すなわち、クラス内インスタンスクラスタリング損失とクラス間表現区別損失を組み込んで、インスタンスの再評価プロセスをさらに調整し、クラス表現を洗練させる。我々は、一般的に採用されている4つの少数ショットベンチマーク、miniImageNet、teredImageNet、CIFAR-FS、FC100データセットに対して、広範囲な実験を行った。その結果、ICRL-Netの優位性が示された。
要約(オリジナル)
Few-shot visual recognition refers to recognize novel visual concepts from a few labeled instances. Many few-shot visual recognition methods adopt the metric-based meta-learning paradigm by comparing the query representation with class representations to predict the category of query instance. However, current metric-based methods generally treat all instances equally and consequently often obtain biased class representation, considering not all instances are equally significant when summarizing the instance-level representations for the class-level representation. For example, some instances may contain unrepresentative information, such as too much background and information of unrelated concepts, which skew the results. To address the above issues, we propose a novel metric-based meta-learning framework termed instance-adaptive class representation learning network (ICRL-Net) for few-shot visual recognition. Specifically, we develop an adaptive instance revaluing network with the capability to address the biased representation issue when generating the class representation, by learning and assigning adaptive weights for different instances according to their relative significance in the support set of corresponding class. Additionally, we design an improved bilinear instance representation and incorporate two novel structural losses, i.e., intra-class instance clustering loss and inter-class representation distinguishing loss, to further regulate the instance revaluation process and refine the class representation. We conduct extensive experiments on four commonly adopted few-shot benchmarks: miniImageNet, tieredImageNet, CIFAR-FS, and FC100 datasets. The experimental results compared with the state-of-the-art approaches demonstrate the superiority of our ICRL-Net.
arxiv情報
著者 | Mengya Han,Yibing Zhan,Yong Luo,Bo Du,Han Hu,Yonggang Wen,Dacheng Tao |
発行日 | 2022-09-07 10:00:18+00:00 |
arxivサイト | arxiv_id(pdf) |