要約
多重クラスタリングは、さまざまな側面からデータのさまざまな潜在構造を発見することを目的としています。
深層マルチクラスタリング手法は、データ内の複雑なパターンと関係を利用することにより、顕著なパフォーマンスを達成しました。
ただし、既存の作業では、データのグループ化におけるユーザー固有の多様なニーズに柔軟に適応するのが難しく、各クラスタリングを手動で理解する必要がある場合があります。
これらの制限に対処するために、この研究ではマルチモーダル部分空間プロキシ学習フレームワークを組み込んだ新しいエンドツーエンドのマルチ クラスタリング アプローチである Multi-Sub を導入します。
CLIP と GPT-4 の相乗機能を利用して、Multi-Sub は、ユーザーの好みを表すテキスト プロンプトを、対応する視覚的表現と調整します。
これは、部分空間ベースとして機能する大規模な言語モデルから代用語を自動的に生成することで実現され、ユーザーの興味に応じた用語でのデータのカスタマイズされた表現が可能になります。
私たちの手法は、視覚的なマルチ クラスタリング タスクにおいて、幅広いデータセットにわたって既存のベースラインを常に上回っています。
私たちのコードは https://github.com/Alexander-Yao/Multi-Sub で入手できます。
要約(オリジナル)
Multiple clustering aims to discover various latent structures of data from different aspects. Deep multiple clustering methods have achieved remarkable performance by exploiting complex patterns and relationships in data. However, existing works struggle to flexibly adapt to diverse user-specific needs in data grouping, which may require manual understanding of each clustering. To address these limitations, we introduce Multi-Sub, a novel end-to-end multiple clustering approach that incorporates a multi-modal subspace proxy learning framework in this work. Utilizing the synergistic capabilities of CLIP and GPT-4, Multi-Sub aligns textual prompts expressing user preferences with their corresponding visual representations. This is achieved by automatically generating proxy words from large language models that act as subspace bases, thus allowing for the customized representation of data in terms specific to the user’s interests. Our method consistently outperforms existing baselines across a broad set of datasets in visual multiple clustering tasks. Our code is available at https://github.com/Alexander-Yao/Multi-Sub.
arxiv情報
著者 | Jiawei Yao,Qi Qian,Juhua Hu |
発行日 | 2024-11-06 15:14:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google