要約
コンピュータビジョンは、新しい手法の学習や評価に利用できる多くのデータセットによって駆動されている。しかし、各データセットは、クラスラベルのセット、クラスの視覚的定義、特定の分布に従う画像、アノテーションプロトコルなどが異なる。本論文では、データセット間のラベル間の視覚的意味関係の自動発見を探求する。あるデータセットにおけるあるクラスのインスタンスが、別のデータセットにおける別のクラスのインスタンスとどのように関連しているかを理解することが目的である。それらは同一性、親/子、重複の関係にあるのだろうか?あるいは、両者の間には全くつながりがないのか?データセット間のラベルの関係を発見するために、我々は言語、視覚、およびそれらの組み合わせに基づく方法を提案する。我々は、データセット間のラベルの関係を効率的に発見できること、またその種類を明らかにする。本手法を、ラベル関係の理解、欠落した側面の特定、ラベルの特異性の向上、転移学習の利得の予測という4つの応用に適用する。その結果、ラベル関係は各データセットの構築方法に強く依存するため、クラス名だけを見ても成立しないことが分かった。
要約(オリジナル)
Computer vision is driven by the many datasets available for training or evaluating novel methods. However, each dataset has a different set of class labels, visual definition of classes, images following a specific distribution, annotation protocols, etc. In this paper we explore the automatic discovery of visual-semantic relations between labels across datasets. We aim to understand how instances of a certain class in a dataset relate to the instances of another class in another dataset. Are they in an identity, parent/child, overlap relation? Or is there no link between them at all? To find relations between labels across datasets, we propose methods based on language, on vision, and on their combination. We show that we can effectively discover label relations across datasets, as well as their type. We apply our method to four applications: understand label relations, identify missing aspects, increase label specificity, and predict transfer learning gains. We conclude that label relations cannot be established by looking at the names of classes alone, as they depend strongly on how each of the datasets was constructed.
arxiv情報
著者 | Jasper Uijlings,Thomas Mensink,Vittorio Ferrari |
発行日 | 2022-08-09 13:30:40+00:00 |
arxivサイト | arxiv_id(pdf) |