要約
限られた量のデータからの学習、つまりフューショット学習は、コンピュータ ビジョンの難しいタスクとして際立っています。
いくつかの研究では、セマンティクスを利用し、制限されたデータ内のまれな代表的な特徴を補うために複雑なセマンティクス融合メカニズムを設計しています。
ただし、クラス名のような単純なセマンティクスに依存すると、その簡潔さによってバイアスが生じますが、外部の知識から広範なセマンティクスを取得するには多大な時間と労力がかかります。
この制限により、少数ショット学習におけるセマンティクスの可能性が大幅に制限されます。
この論文では、高品質のセマンティクスを生成するためのセマンティック エボリューションと呼ばれる自動方法を設計します。
高品質のセマンティクスを組み込むことで、以前の作品で使用されていた複雑なネットワーク構造と学習アルゴリズムの必要性が軽減されます。
したがって、セマンティック アライメント ネットワークと呼ばれる単純な 2 層ネットワークを使用して、セマンティクスと視覚的特徴を、少数ショット分類のための豊富な識別特徴を備えた堅牢なクラス プロトタイプに変換します。
実験結果は、私たちのフレームワークが 5 つのベンチマークで以前のすべての手法を上回っていることを示しており、高品質のセマンティクスを備えたシンプルなネットワークが、数ショットの分類タスクで複雑なマルチモーダル モジュールを上回ることができることを実証しています。
要約(オリジナル)
Learning from a limited amount of data, namely Few-Shot Learning, stands out as a challenging computer vision task. Several works exploit semantics and design complicated semantic fusion mechanisms to compensate for rare representative features within restricted data. However, relying on naive semantics such as class names introduces biases due to their brevity, while acquiring extensive semantics from external knowledge takes a huge time and effort. This limitation severely constrains the potential of semantics in few-shot learning. In this paper, we design an automatic way called Semantic Evolution to generate high-quality semantics. The incorporation of high-quality semantics alleviates the need for complex network structures and learning algorithms used in previous works. Hence, we employ a simple two-layer network termed Semantic Alignment Network to transform semantics and visual features into robust class prototypes with rich discriminative features for few-shot classification. The experimental results show our framework outperforms all previous methods on five benchmarks, demonstrating a simple network with high-quality semantics can beat intricate multi-modal modules on few-shot classification tasks.
arxiv情報
著者 | Hai Zhang,Junzhe Xu,Shanlin Jiang,Zhenan He |
発行日 | 2023-11-30 15:57:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google