DeepEMD: Differentiable Earth Mover’s Distance for Few-Shot Learning

要約

タイトル: Few-Shot LearningにおけるDifferentiable Earth Mover’s Distanceを用いた手法の開発

要約:
– 本調査では、画像領域間の最適マッチングに関する新しい観点からFew-Shot Learningにおける手法を開発した。
– 画像の関連性を決定するために、Earth Mover’s Distance (EMD)を用いた構造的な距離を計算する。
– EMDは、最小のマッチングコストを持つ構造的要素間の最適マッチングフローを生成し、分類のための画像距離を算出する。
– 重要な要素の重みを生成するために、交差参照機構を設計した。これは、乱雑な背景や大きな内クラスの外観の変化が引き起こす負の影響を効果的に緩和することができる。
– k-shot classificationを実装するために、EMDで密な画像表現を直接分類する構造化完全接続層を学習することを提案する。
– EMDは、暗黙的な関数定理に基づいて、ネットワークに層として挿入され、エンドツーエンドのトレーニングが可能である。
– 多数の実験により、本手法がminiImageNet、tieredImageNet、Fewshot-CIFAR100(FC100)、Caltech-UCSD Birds-200-2011(CUB)およびCIFAR-FewShot(CIFAR-FS)といった5つの広く使用されるFew-Shot Classificationベンチマークにおいて、先進的方法を明らかに超える効果を持つことを確認した。
– また、実験により、本手法が画像検索タスクにおいても有効であることを示した。

要約(オリジナル)

In this work, we develop methods for few-shot image classification from a new perspective of optimal matching between image regions. We employ the Earth Mover’s Distance (EMD) as a metric to compute a structural distance between dense image representations to determine image relevance. The EMD generates the optimal matching flows between structural elements that have the minimum matching cost, which is used to calculate the image distance for classification. To generate the important weights of elements in the EMD formulation, we design a cross-reference mechanism, which can effectively alleviate the adverse impact caused by the cluttered background and large intra-class appearance variations. To implement k-shot classification, we propose to learn a structured fully connected layer that can directly classify dense image representations with the EMD. Based on the implicit function theorem, the EMD can be inserted as a layer into the network for end-to-end training. Our extensive experiments validate the effectiveness of our algorithm which outperforms state-of-the-art methods by a significant margin on five widely used few-shot classification benchmarks, namely, miniImageNet, tieredImageNet, Fewshot-CIFAR100 (FC100), Caltech-UCSD Birds-200-2011 (CUB), and CIFAR-FewShot (CIFAR-FS). We also demonstrate the effectiveness of our method on the image retrieval task in our experiments.

arxiv情報

著者 Chi Zhang,Yujun Cai,Guosheng Lin,Chunhua Shen
発行日 2023-03-30 10:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク