Text-Guided Image Clustering

要約

画像クラスタリングは、画像のコレクションを意味のあるグループに分割し、通常は人間が与えた注釈によって事後的に解釈されます。
これらは通常テキストの形式であるため、画像クラスタリングの抽象化としてテキストを使用することが疑問になります。
しかし、現在の画像クラスタリング方法では、生成されたテキストによる説明の使用が無視されています。
したがって、我々は、テキストガイド付き画像クラスタリング、つまり、画像キャプションと視覚的質問応答(VQA)モデルを使用してテキストを生成し、その後、生成されたテキストをクラスタリングすることを提案します。
さらに、VQA モデルをプロンプトすることで、クラスタリングのためにタスクまたはドメインの知識を注入する新しいアプローチを紹介します。
8 つの多様な画像クラスタリング データセットにわたる私たちの結果は、得られたテキスト表現が画像の特徴よりも優れていることが多いことを示しています。
さらに、カウンティングベースのクラスター説明可能性手法を提案します。
私たちの評価では、導出されたキーワードベースの説明が、それぞれのクラスターの精度が示すよりも適切にクラスターを説明していることが示されています。
全体として、この研究は従来のアプローチに挑戦し、生成されたテキストを使用した画像クラスタリングのパラダイムシフトへの道を開きます。

要約(オリジナル)

Image clustering divides a collection of images into meaningful groups, typically interpreted post-hoc via human-given annotations. Those are usually in the form of text, begging the question of using text as an abstraction for image clustering. Current image clustering methods, however, neglect the use of generated textual descriptions. We, therefore, propose Text-Guided Image Clustering, i.e., generating text using image captioning and visual question-answering (VQA) models and subsequently clustering the generated text. Further, we introduce a novel approach to inject task- or domain knowledge for clustering by prompting VQA models. Across eight diverse image clustering datasets, our results show that the obtained text representations often outperform image features. Additionally, we propose a counting-based cluster explainability method. Our evaluations show that the derived keyword-based explanations describe clusters better than the respective cluster accuracy suggests. Overall, this research challenges traditional approaches and paves the way for a paradigm shift in image clustering, using generated text.

arxiv情報

著者 Andreas Stephan,Lukas Miklautz,Kevin Sidak,Jan Philip Wahle,Bela Gipp,Claudia Plant,Benjamin Roth
発行日 2024-02-19 12:36:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク