要約
近年、大規模なラベル付けされていないデータセットから視覚的特徴を学習するために、いくつかの教師無しアプローチや自己教師付きアプローチが開発されてきた。しかし、これらの手法の主な欠点は、同じオブジェクトを回転させたり、カメラの視点を変えたりしても、その視覚的特徴を認識することがほとんどできない点である。この制限を克服し、同時に有用な監視のソースを利用するために、我々はビデオオブジェクトトラックを考慮する。トラック内の2つのパッチは学習された特徴空間において類似した視覚表現を持つべきであるという直観に従い、教師無しクラスタリングに基づくアプローチを採用し、そのような表現は同じオブジェクトまたはオブジェクト部分に属する可能性が高いため、同じカテゴリとしてラベル付けされるように制約を与える。異なるデータセットにおける2つのダウンストリームタスクの実験結果は、時間情報を活用しない先行研究と比較して、我々のビデオトラックの一貫性を用いたオンラインディープクラスタリング(ODCT)アプローチの有効性を実証している。さらに、教師なしクラス不可知論的な、しかしノイズの多いトラックジェネレータを利用することで、高価で正確なトラックアノテーションに依存するよりも良い精度が得られることを示す。
要約(オリジナル)
Several unsupervised and self-supervised approaches have been developed in recent years to learn visual features from large-scale unlabeled datasets. Their main drawback however is that these methods are hardly able to recognize visual features of the same object if it is simply rotated or the perspective of the camera changes. To overcome this limitation and at the same time exploit a useful source of supervision, we take into account video object tracks. Following the intuition that two patches in a track should have similar visual representations in a learned feature space, we adopt an unsupervised clustering-based approach and constrain such representations to be labeled as the same category since they likely belong to the same object or object part. Experimental results on two downstream tasks on different datasets demonstrate the effectiveness of our Online Deep Clustering with Video Track Consistency (ODCT) approach compared to prior work, which did not leverage temporal information. In addition we show that exploiting an unsupervised class-agnostic, yet noisy, track generator yields to better accuracy compared to relying on costly and precise track annotations.
arxiv情報
著者 | Alessandra Alfani,Federico Becattini,Lorenzo Seidenari,Alberto Del Bimbo |
発行日 | 2022-06-07 08:11:00+00:00 |
arxivサイト | arxiv_id(pdf) |