要約
少数ショット画像の分類は、コンピュータ ビジョンの分野における重要な課題として浮上しており、最小限のラベル付きデータで新しいタスクに迅速に適応できる機能が強調されています。
既存の方法は主に画像レベルの特徴またはローカル記述子に依存しており、多くの場合、これらの記述子を取り巻く全体的なコンテキストが見落とされています。
この研究では、「コンテキスト拡張によるローカル記述子 (LDCA)」と呼ばれる新しいアプローチを導入します。
具体的には、この方法は、適応性のあるグローバルなコンテキスト強化モジュールを活用することで、ローカルな理解とグローバルな理解の間のギャップを独自に橋渡しします。
このモジュールにはビジュアル トランスフォーマーが組み込まれており、グローバルな視点から周囲の複雑なニュアンスに至るまで、ローカル記述子にコンテキスト認識機能を与えます。
そうすることで、LDCA は従来の記述子ベースのアプローチを超越し、各局所特徴がより大きな視覚的物語の中で確実に解釈されるようにします。
広範な実験により、私たちの手法の有効性が強調され、きめの細かい分類データセットで次善の手法と比較して最大 20% の絶対的な改善が示され、少数ショットの分類タスクにおける大幅な進歩が実証されました。
要約(オリジナル)
Few-shot image classification has emerged as a key challenge in the field of computer vision, highlighting the capability to rapidly adapt to new tasks with minimal labeled data. Existing methods predominantly rely on image-level features or local descriptors, often overlooking the holistic context surrounding these descriptors. In this work, we introduce a novel approach termed ‘Local Descriptor with Contextual Augmentation (LDCA)’. Specifically, this method bridges the gap between local and global understanding uniquely by leveraging an adaptive global contextual enhancement module. This module incorporates a visual transformer, endowing local descriptors with contextual awareness capabilities, ranging from broad global perspectives to intricate surrounding nuances. By doing so, LDCA transcends traditional descriptor-based approaches, ensuring each local feature is interpreted within its larger visual narrative. Extensive experiments underscore the efficacy of our method, showing a maximal absolute improvement of 20\% over the next-best on fine-grained classification datasets, thus demonstrating significant advancements in few-shot classification tasks.
arxiv情報
著者 | Maofa Wang,Bingchen Yan |
発行日 | 2024-01-24 14:44:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google