Image Clustering with External Guidance

要約

クラスタリングの中核は、事前の知識を組み込んで監視信号を構築することです。
データのコンパクトさに基づく古典的な K 平均法から自己監視に基づく最近の対照的クラスタリングまで、クラスタリング手法の進化は本質的に監視信号の進歩に対応しています。
現在、データから内部監視信号をマイニングすることに多大な努力が払われています。
それにもかかわらず、必然的にクラスタリングを引き起こす意味論的記述などの豊富な外部知識が残念ながら見落とされています。
この研究では、与えられたデータとは無関係に見える場合でも、クラスタリングをガイドするための新しい監視信号として外部知識を活用することを提案します。
私たちのアイデアを実装して検証するために、WordNet のテキスト セマンティクスを活用して画像のクラスタリングを容易にする、外部ガイド付きクラスタリング手法 (テキスト支援クラスタリング、TAC) を設計します。
具体的には、TAC はまず、画像を最もよく区別する WordNet 名詞を選択して取得し、特徴の識別性を高めます。
次に、画像クラスタリングのパフォーマンスを向上させるために、TAC はクロスモーダル近傍情報を相互に抽出することによってテキストと画像のモダリティを連携させます。
実験では、完全な ImageNet-1K データセットを含む、広く使用されている 5 つの画像クラスタリング ベンチマークと、より困難な 3 つの画像クラスタリング ベンチマークで、TAC が最先端のパフォーマンスを達成していることが実証されています。

要約(オリジナル)

The core of clustering is incorporating prior knowledge to construct supervision signals. From classic k-means based on data compactness to recent contrastive clustering guided by self-supervision, the evolution of clustering methods intrinsically corresponds to the progression of supervision signals. At present, substantial efforts have been devoted to mining internal supervision signals from data. Nevertheless, the abundant external knowledge such as semantic descriptions, which naturally conduces to clustering, is regrettably overlooked. In this work, we propose leveraging external knowledge as a new supervision signal to guide clustering, even though it seems irrelevant to the given data. To implement and validate our idea, we design an externally guided clustering method (Text-Aided Clustering, TAC), which leverages the textual semantics of WordNet to facilitate image clustering. Specifically, TAC first selects and retrieves WordNet nouns that best distinguish images to enhance the feature discriminability. Then, to improve image clustering performance, TAC collaborates text and image modalities by mutually distilling cross-modal neighborhood information. Experiments demonstrate that TAC achieves state-of-the-art performance on five widely used and three more challenging image clustering benchmarks, including the full ImageNet-1K dataset.

arxiv情報

著者 Yunfan Li,Peng Hu,Dezhong Peng,Jiancheng Lv,Jianping Fan,Xi Peng
発行日 2023-10-18 14:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク