要約
教師なし位置特定とセグメンテーションは、ロボット ビジョンに関する長年の課題であり、ラベル付けされたデータを使用せずに画像を個々のオブジェクトに分解する方法を自律ロボットが学習する重要な能力を表します。
これらのタスクは、高密度画像の手動アノテーションが利用できるかどうかが限られていることと、生涯学習において進化するオブジェクト カテゴリのセットに適応するという有望なビジョンを備えているため、重要です。
最新の手法は、自己教師ありビジョン トランスフォーマー (ViT) から得られた特徴を空間的にクラスタリングすることにより、視覚的な外観の連続性をオブジェクトの手がかりとして使用することに焦点を当てています。
この作品では、同様の動きを共有するピクセルは同じオブジェクトに属する傾向があるという運命共同体の原則に触発されたモーション キューを活用しています。
我々は、ラベルなしビデオのオプティカル フローを使用して、対応する空間的位置が同様の動きを共有する場合、またはその逆の場合、自己教師付き ViT 特徴が互いに近づくことを促す、新しい損失項定式化を提案します。
提案された損失関数を使用して、もともと静止画像でトレーニングされたビジョン トランスフォーマーを微調整します。
私たちの微調整手順は、ラベル付きデータを一切使用せずに、線形プローブによる教師なしセマンティック セグメンテーションの最先端の技術を上回ります。
この手順は、教師なしオブジェクト位置特定およびセマンティック セグメンテーション ベンチマーク全体で、元の ViT ネットワークよりもパフォーマンスが向上していることも示しています。
要約(オリジナル)
Unsupervised localization and segmentation are long-standing robot vision challenges that describe the critical ability for an autonomous robot to learn to decompose images into individual objects without labeled data. These tasks are important because of the limited availability of dense image manual annotation and the promising vision of adapting to an evolving set of object categories in lifelong learning. Most recent methods focus on using visual appearance continuity as object cues by spatially clustering features obtained from self-supervised vision transformers (ViT). In this work, we leverage motion cues, inspired by the common fate principle that pixels that share similar movements tend to belong to the same object. We propose a new loss term formulation that uses optical flow in unlabeled videos to encourage self-supervised ViT features to become closer to each other if their corresponding spatial locations share similar movements, and vice versa. We use the proposed loss function to finetune vision transformers that were originally trained on static images. Our fine-tuning procedure outperforms state-of-the-art techniques for unsupervised semantic segmentation through linear probing, without the use of any labeled data. This procedure also demonstrates increased performance over original ViT networks across unsupervised object localization and semantic segmentation benchmarks.
arxiv情報
著者 | Xinyu Zhang,Abdeslam Boularias |
発行日 | 2023-07-25 16:45:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google