要約
オブジェクトの部分を明示的に検出し、それを基に推論するコンピューター ビジョン手法は、本質的に解釈可能なモデルへの一歩となります。
きめの細かい分類タスクによって部品発見を実行する既存のアプローチでは、発見された部品の幾何学的特性について非常に限定的な仮定が行われます。
小さくてコンパクトである必要があります。
この事前分布は場合によっては有用ですが、この論文では、自己教師あり DINOv2 ViT などの事前トレーニングされたトランスフォーマーベースのビジョン モデルにより、これらの制約を緩和できることを示します。
特に、任意のサイズの複数のコンポーネントを接続できるトータル バリエーション (TV) プライアが、以前の研究よりも大幅に優れていることがわかりました。
CUB、PartImageNet、Oxford Flowers という 3 つのきめの細かい分類ベンチマークでアプローチをテストし、その結果を以前に公開された手法およびトランスフォーマー ベースの最先端手法 PDiscoNet の再実装と比較します。
背骨。
部品発見メトリクスと下流の分類タスクの両方において、全体的に大幅な改善が一貫して得られており、自己教師あり ViT モデルの強い帰納的バイアスにより、教師なし部品発見に使用できる幾何学的事前分布を再考する必要があることが示されています。
要約(オリジナル)
Computer vision methods that explicitly detect object parts and reason on them are a step towards inherently interpretable models. Existing approaches that perform part discovery driven by a fine-grained classification task make very restrictive assumptions on the geometric properties of the discovered parts; they should be small and compact. Although this prior is useful in some cases, in this paper we show that pre-trained transformer-based vision models, such as self-supervised DINOv2 ViT, enable the relaxation of these constraints. In particular, we find that a total variation (TV) prior, which allows for multiple connected components of any size, substantially outperforms previous work. We test our approach on three fine-grained classification benchmarks: CUB, PartImageNet and Oxford Flowers, and compare our results to previously published methods as well as a re-implementation of the state-of-the-art method PDiscoNet with a transformer-based backbone. We consistently obtain substantial improvements across the board, both on part discovery metrics and the downstream classification task, showing that the strong inductive biases in self-supervised ViT models require to rethink the geometric priors that can be used for unsupervised part discovery.
arxiv情報
著者 | Ananthu Aniraj,Cassio F. Dantas,Dino Ienco,Diego Marcos |
発行日 | 2024-07-08 14:44:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google