要約
オブジェクトのパーツを明示的に検出して推論するコンピュータビジョン手法は、本質的に解釈可能なモデルへの一歩である。きめ細かな分類タスクによってパーツの発見を行う既存のアプローチは、発見されたパーツの幾何学的特性について非常に制限的な前提を置いている。この前提は場合によっては有用であるが、本稿では、自己教師付きDINOv2 ViTのような、事前に訓練された変形ベースの視覚モデルにより、これらの制約を緩和できることを示す。特に、任意の大きさの複数の連結成分を許容する全変動(TV)事前学習が、従来の研究を大幅に上回ることを見出す。我々のアプローチを3つの細かい分類ベンチマークでテストする:CUB、PartImageNet、Oxford Flowersの3つのきめ細かな分類ベンチマークでテストし、我々の結果を、これまでに発表された手法や、変換器ベースのバックボーンを持つ最先端の手法PDiscoNetの再実装と比較する。その結果、自己教師ありViTモデルにおける強い帰納的バイアスは、教師なし部品発見に使用できる幾何学的プリオールを再考する必要があることを示す。
要約(オリジナル)
Computer vision methods that explicitly detect object parts and reason on them are a step towards inherently interpretable models. Existing approaches that perform part discovery driven by a fine-grained classification task make very restrictive assumptions on the geometric properties of the discovered parts; they should be small and compact. Although this prior is useful in some cases, in this paper we show that pre-trained transformer-based vision models, such as self-supervised DINOv2 ViT, enable the relaxation of these constraints. In particular, we find that a total variation (TV) prior, which allows for multiple connected components of any size, substantially outperforms previous work. We test our approach on three fine-grained classification benchmarks: CUB, PartImageNet and Oxford Flowers, and compare our results to previously published methods as well as a re-implementation of the state-of-the-art method PDiscoNet with a transformer-based backbone. We consistently obtain substantial improvements across the board, both on part discovery metrics and the downstream classification task, showing that the strong inductive biases in self-supervised ViT models require to rethink the geometric priors that can be used for unsupervised part discovery.
arxiv情報
著者 | Ananthu Aniraj,Cassio F. Dantas,Dino Ienco,Diego Marcos |
発行日 | 2024-07-05 14:24:37+00:00 |
arxivサイト | arxiv_id(pdf) |