Text-Guided Image Clustering

要約

画像クラスタリングは、画像のコレクションを意味のあるグループに分割するもので、通常は人間が与えた注釈によって事後的に解釈される。それらは通常テキストの形をしており、画像クラスタリングの抽象化としてテキストを使用することに疑問を投げかけている。しかしながら、現在の画像クラスタリング手法は、生成されたテキスト記述の利用を軽視している。そこで我々は、テキスト誘導型画像クラスタリングを提案する。すなわち、画像キャプションと視覚的質問応答(VQA)モデルを用いてテキストを生成し、その後、生成されたテキストをクラスタリングする。さらに、VQAモデルにプロンプトを与えることで、クラスタリングにタスク知識やドメイン知識を注入する新しいアプローチを紹介する。8つの多様な画像クラスタリングデータセットにおいて、我々の結果は、得られたテキスト表現が画像特徴を上回ることが多いことを示している。さらに、計数ベースのクラスタ説明可能性手法を提案する。我々の評価では、導出されたキーワードベースの説明は、それぞれのクラスタ精度が示唆するよりも、クラスタをよく説明している。全体として、本研究は従来のアプローチに挑戦し、生成されたテキストを用いた画像クラスタリングにおけるパラダイムシフトへの道を開くものである。

要約(オリジナル)

Image clustering divides a collection of images into meaningful groups, typically interpreted post-hoc via human-given annotations. Those are usually in the form of text, begging the question of using text as an abstraction for image clustering. Current image clustering methods, however, neglect the use of generated textual descriptions. We, therefore, propose Text-Guided Image Clustering, i.e., generating text using image captioning and visual question-answering (VQA) models and subsequently clustering the generated text. Further, we introduce a novel approach to inject task- or domain knowledge for clustering by prompting VQA models. Across eight diverse image clustering datasets, our results show that the obtained text representations often outperform image features. Additionally, we propose a counting-based cluster explainability method. Our evaluations show that the derived keyword-based explanations describe clusters better than the respective cluster accuracy suggests. Overall, this research challenges traditional approaches and paves the way for a paradigm shift in image clustering, using generated text.

arxiv情報

著者 Andreas Stephan,Lukas Miklautz,Kevin Sidak,Jan Philip Wahle,Bela Gipp,Claudia Plant,Benjamin Roth
発行日 2024-02-05 13:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク