CEIR: Concept-based Explainable Image Representation Learning

要約

現代の機械学習では、自己教師あり学習を利用してラベル依存性のない高品質な表現を導き出す傾向が大きな注目を集めています。
ただし、ラベル情報が存在しないことと、本質的に高次元であるという性質が相まって、学習された表現の解釈の困難さが改善されます。
その結果、間接的な評価がこれらの特徴の品質を評価するための一般的な指標となり、学習された表現理論的根拠の偏った検証につながります。
これらの課題に対処するために、コンセプトベースの説明可能な画像表現 (CEIR) と呼ばれる新しいアプローチを導入します。
最初に、事前学習済みの CLIP と GPT-4 によって生成された概念が組み込まれた概念ベース モデル (CBM) を使用して、入力画像を概念ベクトル空間に投影します。
その後、変分オートエンコーダー (VAE) がこれらの投影された概念から潜在表現を学習し、これが最終的な画像表現として機能します。
高レベルの意味的に関連する概念をカプセル化する表現の機能により、モデルは人間が理解できる概念空間への帰属を可能にします。
これにより、解釈可能性が向上するだけでなく、下流のタスクに不可欠な堅牢性も維持されます。
たとえば、私たちの手法は、CIFAR10、CIFAR100、STL10 などのベンチマークで最先端の教師なしクラスタリングのパフォーマンスを示します。
さらに、CEIR は人間の概念理解の普遍性を利用して、微調整することなく、オープンワールドの画像から関連する概念をシームレスに抽出できます。
これにより、自動ラベル生成とラベル操作に対する新しいアプローチが提供されます。

要約(オリジナル)

In modern machine learning, the trend of harnessing self-supervised learning to derive high-quality representations without label dependency has garnered significant attention. However, the absence of label information, coupled with the inherently high-dimensional nature, improves the difficulty for the interpretation of learned representations. Consequently, indirect evaluations become the popular metric for evaluating the quality of these features, leading to a biased validation of the learned representation rationale. To address these challenges, we introduce a novel approach termed Concept-based Explainable Image Representation (CEIR). Initially, using the Concept-based Model (CBM) incorporated with pretrained CLIP and concepts generated by GPT-4, we project input images into a concept vector space. Subsequently, a Variational Autoencoder (VAE) learns the latent representation from these projected concepts, which serves as the final image representation. Due to the capability of the representation to encapsulate high-level, semantically relevant concepts, the model allows for attributions to a human-comprehensible concept space. This not only enhances interpretability but also preserves the robustness essential for downstream tasks. For instance, our method exhibits state-of-the-art unsupervised clustering performance on benchmarks such as CIFAR10, CIFAR100, and STL10. Furthermore, capitalizing on the universality of human conceptual understanding, CEIR can seamlessly extract the related concept from open-world images without fine-tuning. This offers a fresh approach to automatic label generation and label manipulation.

arxiv情報

著者 Yan Cui,Shuhong Liu,Liuzhuozheng Li,Zhiyuan Yuan
発行日 2023-12-17 15:37:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク