要約
日常生活において、私たちは正しく認識される可能性を高めるために、顔認識機を横向きにするのではなく、正面を向いて顔認識機を見つめる傾向があります。
モデルはトレーニング中にこれまで見られなかったクラスに属する画像を識別する必要があるため、フューショット学習 (FSL) 分類自体が困難です。
したがって、テスト中の歪んだ非典型的なクエリまたはサポート画像により、モデルが正しく予測することがさらに困難になる可能性があります。
私たちの作業では、テスト中に正しい予測が行われる可能性を高めるために、イメージ間の変換を通じてテストされたクラスの新しいサンプルを生成することにより、トレーニングされた FSL モデルのテスト入力を修正することを目的としています。
FSL モデルは通常、十分なサンプルを含むクラスでトレーニングされ、その後、ショットの少ないサンプルを含むクラスでテストされます。
私たちが提案する方法では、まずテスト画像のスタイルまたは形状をキャプチャし、次に適切なトレーニング済みクラス サンプルを特定します。
次に、1 つのサンプルだけではなく生成されたサンプルのセットに基づいて分類を実行する前に、テスト イメージのスタイルまたは形状をトレイン クラス イメージに転送して、さらに多くのテストクラス サンプルを生成します。
私たちの手法には、追加のトレーニングやデータセットを必要とせずに、テスト段階でトレーニングされた FSL モデルのスコアを高める可能性があります。
私たちの実験によると、生成されたサンプルを 1 つ追加するだけでサポート セットを強化することで、動物の顔または交通標識のいずれかで構成されるデータセットでトレーニングされた FSL モデルの約 2% の改善を達成できます。
サポート セットとクエリの両方を強化することで、さらにパフォーマンスを向上させることができます。
私たちの Github リポジトリは公開されています。
要約(オリジナル)
In daily life, we tend to present the front of our faces by staring squarely at a facial recognition machine, instead of facing it sideways, in order to increase the chance of being correctly recognised. Few-shot-learning (FSL) classification is challenging in itself because a model has to identify images that belong to classes previously unseen during training. Therefore, a warped and non-typical query or support image during testing can make it even more challenging for a model to predict correctly. In our work, to increase the chance of correct prediction during testing, we aim to rectify the test input of a trained FSL model by generating new samples of the tested classes through image-to-image translation. An FSL model is usually trained on classes with sufficient samples, and then tested on classes with few-shot samples. Our proposed method first captures the style or shape of the test image, and then identifies a suitable trained class sample. It then transfers the style or shape of the test image to the train-class images for generation of more test-class samples, before performing classification based on a set of generated samples instead of just one sample. Our method has potential in empowering a trained FSL model to score higher during the testing phase without any extra training nor dataset. According to our experiments, by augmenting the support set with just 1 additional generated sample, we can achieve around 2% improvement for trained FSL models on datasets consisting of either animal faces or traffic signs. By augmenting both the support set and the queries, we can achieve even more performance improvement. Our Github Repository is publicly available.
arxiv情報
著者 | Yunwei Bai,Ying Kiat Tan,Tsuhan Chen |
発行日 | 2024-02-28 12:37:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google