Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification

要約

本稿では、ゼロショット学習(ZSL)のための新しいフレームワーク、すなわち、マルチモデルおよびマルチアライメント統合法を用いて、学習中に未見の新しいカテゴリを認識するためのフレームワークを紹介する。具体的には、ZSLを扱うモデルの性能を向上させるための3つの戦略を提案する:1)ChatGPTの豊富な知識とDALL-Eの強力な画像生成機能を活用し、未見のカテゴリと分類境界を正確に記述できる参照画像を作成することで、情報のボトルネック問題を緩和する、2)DINOの画像-画像アライメント結果と共に、CLIPのテキスト-画像アライメント結果と画像-画像アライメント結果を統合することで、より高精度な予測を実現する、3)信頼度に基づく適応的な重み付けメカニズムを導入し、異なる予測手法からの結果を集約する。CIFAR-10、CIFAR-100、TinyImageNetを含む複数のデータセットでの実験結果は、我々のモデルが単一モデルのアプローチと比較して分類精度を大幅に改善できることを示しており、全てのテストデータセットで96%以上のAUROCスコアを達成し、特にCIFAR-10データセットでは99%を超えている。

要約(オリジナル)

This paper introduces a novel framework for zero-shot learning (ZSL), i.e., to recognize new categories that are unseen during training, by using a multi-model and multi-alignment integration method. Specifically, we propose three strategies to enhance the model’s performance to handle ZSL: 1) Utilizing the extensive knowledge of ChatGPT and the powerful image generation capabilities of DALL-E to create reference images that can precisely describe unseen categories and classification boundaries, thereby alleviating the information bottleneck issue; 2) Integrating the results of text-image alignment and image-image alignment from CLIP, along with the image-image alignment results from DINO, to achieve more accurate predictions; 3) Introducing an adaptive weighting mechanism based on confidence levels to aggregate the outcomes from different prediction methods. Experimental results on multiple datasets, including CIFAR-10, CIFAR-100, and TinyImageNet, demonstrate that our model can significantly improve classification accuracy compared to single-model approaches, achieving AUROC scores above 96% across all test datasets, and notably surpassing 99% on the CIFAR-10 dataset.

arxiv情報

著者 Siqi Yin,Lifan Jiang
発行日 2024-05-03 15:02:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク