要約
自己教師あり視覚表現学習の最近の進歩により、オブジェクトの発見やインスタンスのセグメンテーションなどのタスクに取り組む教師なしメソッドへの道が開かれました。
ただし、監視なしで画像内のオブジェクトを検出するのは非常に困難な作業です。
目的のオブジェクトは何か、それらをいつパーツに分割するか、何個あるのか、どのクラスのものか?
これらの質問に対する答えは、評価のタスクとデータセットによって異なります。
この作品では、別のアプローチを取り、代わりに背景を探すことを提案します。
このようにして、オブジェクトがどうあるべきかについての強い仮定なしに、顕著なオブジェクトが副産物として出現します。
自己教師ありパッチベースの表現から抽出された粗い背景マスクで初期化された単一の $conv1\times1$ で構成される単純なモデルである FOUND を提案します。
これらのシード マスクをすばやくトレーニングして改良した後、モデルは、教師なしの顕著性検出とオブジェクト検出ベンチマークで最先端の結果に達します。
さらに、私たちのアプローチが教師なしセマンティック セグメンテーション検索タスクで良い結果をもたらすことを示します。
結果を再現するためのコードは、https://github.com/valeoai/FOUND で入手できます。
要約(オリジナル)
Recent advances in self-supervised visual representation learning have paved the way for unsupervised methods tackling tasks such as object discovery and instance segmentation. However, discovering objects in an image with no supervision is a very hard task; what are the desired objects, when to separate them into parts, how many are there, and of what classes? The answers to these questions depend on the tasks and datasets of evaluation. In this work, we take a different approach and propose to look for the background instead. This way, the salient objects emerge as a by-product without any strong assumption on what an object should be. We propose FOUND, a simple model made of a single $conv1\times1$ initialized with coarse background masks extracted from self-supervised patch-based representations. After fast training and refining these seed masks, the model reaches state-of-the-art results on unsupervised saliency detection and object discovery benchmarks. Moreover, we show that our approach yields good results in the unsupervised semantic segmentation retrieval task. The code to reproduce our results is available at https://github.com/valeoai/FOUND.
arxiv情報
著者 | Oriane Siméoni,Chloé Sekkat,Gilles Puy,Antonin Vobecky,Éloi Zablocki,Patrick Pérez |
発行日 | 2023-03-29 14:03:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google