要約
この論文では、Generalized Category Discovery (GCD) の問題に取り組みます。
具体的には、ラベル付き画像とラベルなし画像を含むデータセットが与えられた場合、タスクは、ラベル付きカテゴリに属しているかどうかに関係なく、ラベルなしサブセット内のすべての画像をクラスター化することです。
私たちの最初の貢献は、ほとんどの既存の GCD ベンチマークにはデータの単一クラスタリングのラベルしか含まれておらず、モデルが GCD タスクを解決するために利用可能なラベルを使用しているのか、それとも単に教師なしクラスタリング問題を解決しているのかを確認することが困難であることを認識することです。
そのため、カテゴリ発見用に「Clevr-4」という名前の合成データセットを提示します。
Clvr-4 には、オブジェクトの形状、テクスチャ、色、または数に基づいた、同等に有効なデータの 4 つのパーティションが含まれています。
このタスクを解決するには、モデルは単にデータの単一の自然なグループを把握するのではなく、ラベル付きセットによって指定された分類法を外挿する必要があります。
このデータセットを使用して、GCD 設定における教師なしクラスタリングの限界を実証し、非常に強力な教師なしモデルであっても Clvr-4 では失敗することを示しています。
さらに、Clvr-4 を使用して既存の GCD アルゴリズムの弱点を調査し、表現学習文献からの一貫した発見を活用して、これらの欠点に対処する新しい方法を提案します。
「意地悪な教師」に基づいた $\mu$GCD と呼ばれる私たちのシンプルなソリューションは、Clevr-4 で実装されたベースラインを大幅に上回っています。
最後に、これらの発見を難しいセマンティック シフト ベンチマーク (SSB) の実データに移すと、$\mu$GCD がこれまでのすべての研究よりも優れたパフォーマンスを示し、新たな最先端を確立することがわかりました。
プロジェクトの Web ページについては、https://www.robots.ox.ac.uk/~vgg/data/clevr4/ を参照してください。
要約(オリジナル)
In this paper we tackle the problem of Generalized Category Discovery (GCD). Specifically, given a dataset with labelled and unlabelled images, the task is to cluster all images in the unlabelled subset, whether or not they belong to the labelled categories. Our first contribution is to recognize that most existing GCD benchmarks only contain labels for a single clustering of the data, making it difficult to ascertain whether models are using the available labels to solve the GCD task, or simply solving an unsupervised clustering problem. As such, we present a synthetic dataset, named ‘Clevr-4’, for category discovery. Clevr-4 contains four equally valid partitions of the data, i.e based on object shape, texture, color or count. To solve the task, models are required to extrapolate the taxonomy specified by the labelled set, rather than simply latching onto a single natural grouping of the data. We use this dataset to demonstrate the limitations of unsupervised clustering in the GCD setting, showing that even very strong unsupervised models fail on Clevr-4. We further use Clevr-4 to examine the weaknesses of existing GCD algorithms, and propose a new method which addresses these shortcomings, leveraging consistent findings from the representation learning literature to do so. Our simple solution, which is based on ‘mean teachers’ and termed $\mu$GCD, substantially outperforms implemented baselines on Clevr-4. Finally, when we transfer these findings to real data on the challenging Semantic Shift Benchmark (SSB), we find that $\mu$GCD outperforms all prior work, setting a new state-of-the-art. For the project webpage, see https://www.robots.ox.ac.uk/~vgg/data/clevr4/
arxiv情報
著者 | Sagar Vaze,Andrea Vedaldi,Andrew Zisserman |
発行日 | 2023-11-28 18:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google