要約
シーンチェンジ検出(SCD)は、異なる時間に撮影されたシーンを比較することによって変化を特定する重要な知覚タスクである。SCDは、照明のノイズの多い変化、季節の変化、一組のビューにおける視点の違いなどのために困難である。ディープニューラルネットワークに基づくソリューションでは、大量のアノテーションデータが必要であり、その入手は面倒で高価です。一方、大規模なデータセットからの転移学習は、ドメインシフトを誘発する。これらの課題を解決するために、我々は、特徴差分を用いて変更領域に対応する識別表現を学習すると同時に、ビュー間の時間不変性を強制することでノイズの多い変更に対処する、新しい◄textit{Differencing self-supervised pre-training (DSP)} 手法を提案する。SCDデータセットを用いた実験により、特にカメラの視点や照明条件の違いに対する本手法の有効性が実証された。自己教師付きBarlow Twinsや、100万枚以上のラベル付き画像を追加で使用する標準的なImageNetの事前学習と比較すると、DSPは追加データを一切使用せずにこれを上回ることができる。また、自然破損、分布のずれ、限られたラベル付きデータでの学習に対するDSPの頑健性も実証した。
要約(オリジナル)
Scene change detection (SCD), a crucial perception task, identifies changes by comparing scenes captured at different times. SCD is challenging due to noisy changes in illumination, seasonal variations, and perspective differences across a pair of views. Deep neural network based solutions require a large quantity of annotated data which is tedious and expensive to obtain. On the other hand, transfer learning from large datasets induces domain shift. To address these challenges, we propose a novel \textit{Differencing self-supervised pretraining (DSP)} method that uses feature differencing to learn discriminatory representations corresponding to the changed regions while simultaneously tackling the noisy changes by enforcing temporal invariance across views. Our experimental results on SCD datasets demonstrate the effectiveness of our method, specifically to differences in camera viewpoints and lighting conditions. Compared against the self-supervised Barlow Twins and the standard ImageNet pretraining that uses more than a million additional labeled images, DSP can surpass it without using any additional data. Our results also demonstrate the robustness of DSP to natural corruptions, distribution shift, and learning under limited labeled data.
arxiv情報
著者 | Vijaya Raghavan T. Ramkumar,Elahe Arani,Bahram Zonooz |
発行日 | 2022-08-11 14:06:32+00:00 |
arxivサイト | arxiv_id(pdf) |