CEIR: Concept-based Explainable Image Representation Learning


これらの課題に対処するために、コンセプトベースの説明可能な画像表現 (CEIR) と呼ばれる新しいアプローチを導入します。
最初に、事前学習済みの CLIP と GPT-4 によって生成された概念が組み込まれた概念ベース モデル (CBM) を使用して、入力画像を概念ベクトル空間に投影します。
その後、変分オートエンコーダー (VAE) がこれらの投影された概念から潜在表現を学習し、これが最終的な画像表現として機能します。
たとえば、私たちの手法は、CIFAR10、CIFAR100、STL10 などのベンチマークで最先端の教師なしクラスタリングのパフォーマンスを示します。
さらに、CEIR は人間の概念理解の普遍性を利用して、微調整することなく、オープンワールドの画像から関連する概念をシームレスに抽出できます。


In modern machine learning, the trend of harnessing self-supervised learning to derive high-quality representations without label dependency has garnered significant attention. However, the absence of label information, coupled with the inherently high-dimensional nature, improves the difficulty for the interpretation of learned representations. Consequently, indirect evaluations become the popular metric for evaluating the quality of these features, leading to a biased validation of the learned representation rationale. To address these challenges, we introduce a novel approach termed Concept-based Explainable Image Representation (CEIR). Initially, using the Concept-based Model (CBM) incorporated with pretrained CLIP and concepts generated by GPT-4, we project input images into a concept vector space. Subsequently, a Variational Autoencoder (VAE) learns the latent representation from these projected concepts, which serves as the final image representation. Due to the capability of the representation to encapsulate high-level, semantically relevant concepts, the model allows for attributions to a human-comprehensible concept space. This not only enhances interpretability but also preserves the robustness essential for downstream tasks. For instance, our method exhibits state-of-the-art unsupervised clustering performance on benchmarks such as CIFAR10, CIFAR100, and STL10. Furthermore, capitalizing on the universality of human conceptual understanding, CEIR can seamlessly extract the related concept from open-world images without fine-tuning. This offers a fresh approach to automatic label generation and label manipulation.


著者 Yan Cui,Shuhong Liu,Liuzhuozheng Li,Zhiyuan Yuan
発行日 2023-12-17 15:37:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク