要約
従来のクラスタリング手法では、ユーザーはクラスタリング結果を直接制御できず、クラスタリング結果はユーザーが念頭に置いている関連基準と一致しない可能性があります。
この研究では、最新の視覚言語モデルと大規模言語モデルを活用して、ユーザー指定のテキスト基準に基づいて画像クラスタリングを実行する新しい方法論を紹介します。
私たちはこのメソッドをテキスト基準に条件付きの画像クラスタリング (IC$|$TC) と呼びます。これは画像クラスタリングの異なるパラダイムを表します。
IC$|$TC は、最小限かつ実用的なレベルの人的介入を必要とし、その代わりにユーザーがクラスタリング結果を大幅に制御できるようにします。
私たちの実験では、IC$|$TC が人間の行動、物理的な位置、人の気分などのさまざまな基準で画像を効果的にクラスタリングでき、ベースラインを大幅に上回るパフォーマンスを示すことがわかりました。
要約(オリジナル)
Classical clustering methods do not provide users with direct control of the clustering results, and the clustering results may not be consistent with the relevant criterion that a user has in mind. In this work, we present a new methodology for performing image clustering based on user-specified text criteria by leveraging modern vision-language models and large language models. We call our method Image Clustering Conditioned on Text Criteria (IC$|$TC), and it represents a different paradigm of image clustering. IC$|$TC requires a minimal and practical degree of human intervention and grants the user significant control over the clustering results in return. Our experiments show that IC$|$TC can effectively cluster images with various criteria, such as human action, physical location, or the person’s mood, while significantly outperforming baselines.
arxiv情報
著者 | Sehyun Kwon,Jaeseung Park,Minkyu Kim,Jaewoong Cho,Ernest K. Ryu,Kangwook Lee |
発行日 | 2023-10-27 17:35:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google