Improving Pixel-Level Contrastive Learning by Leveraging Exogenous Depth Information

要約

対照学習 (CL) に基づく自己教師あり表現学習は、近年多くの注目を集めています。
これは、大量のラベル付きサンプルを必要とせずに、その後のさまざまなタスク (特に分類) で優れた結果が得られたためです。
ただし、ほとんどのリファレンス CL アルゴリズム (SimCLR や MoCo だけでなく、BYOL や Barlow Twins など) は、ピクセル レベルのダウンストリーム タスクに適応していません。
PixPro として知られる既存のソリューションの 1 つは、画像全体のクロップ間の距離を使用して、同じ画像の正/負の画像クロップのペアのフィルタリングに基づくピクセルレベルのアプローチを提案しています。
このアイデアは、外因性データによって提供されるセマンティック情報を追加の選択フィルターとして組み込むことでさらに強化できると主張しています。これは、(トレーニング時に) ピクセルレベルのポジティブ/ネガティブサンプルの選択を改善するために使用できます。
このホワイト ペーパーでは、深度推定ネットワークを使用して取得したり、利用可能なデータ (ステレオ ビジョン、視差モーション、LiDAR など) から測定したりすることができる深度情報に焦点を当てます。
シーン深度は、深度に基づいてさまざまなオブジェクトに属するピクセルを区別するための意味のある手がかりを提供できます。
対照的な損失でこの外生的な情報を使用すると、結果が改善され、学習された表現がオブジェクトの形状によりよく従うことを示します。
さらに、さまざまなオブジェクト サイズに適応したトレーニング パラメーターを見つける問題を軽減するマルチスケール損失を導入します。
ボアホール画像のブレークアウト セグメンテーションに関するアイデアの有効性を実証し、PixPro よりも 1.9\%、監視されたベースラインよりも約 5\% 向上しています。
さらに、ScanNet を使用した屋内シーンのセグメンテーション タスクと、CityScapes を使用した屋外シーンの手法を検証します (PixPro よりもそれぞれ 1.6\% および 1.1\% の改善)。

要約(オリジナル)

Self-supervised representation learning based on Contrastive Learning (CL) has been the subject of much attention in recent years. This is due to the excellent results obtained on a variety of subsequent tasks (in particular classification), without requiring a large amount of labeled samples. However, most reference CL algorithms (such as SimCLR and MoCo, but also BYOL and Barlow Twins) are not adapted to pixel-level downstream tasks. One existing solution known as PixPro proposes a pixel-level approach that is based on filtering of pairs of positive/negative image crops of the same image using the distance between the crops in the whole image. We argue that this idea can be further enhanced by incorporating semantic information provided by exogenous data as an additional selection filter, which can be used (at training time) to improve the selection of the pixel-level positive/negative samples. In this paper we will focus on the depth information, which can be obtained by using a depth estimation network or measured from available data (stereovision, parallax motion, LiDAR, etc.). Scene depth can provide meaningful cues to distinguish pixels belonging to different objects based on their depth. We show that using this exogenous information in the contrastive loss leads to improved results and that the learned representations better follow the shapes of objects. In addition, we introduce a multi-scale loss that alleviates the issue of finding the training parameters adapted to different object sizes. We demonstrate the effectiveness of our ideas on the Breakout Segmentation on Borehole Images where we achieve an improvement of 1.9\% over PixPro and nearly 5\% over the supervised baseline. We further validate our technique on the indoor scene segmentation tasks with ScanNet and outdoor scenes with CityScapes ( 1.6\% and 1.1\% improvement over PixPro respectively).

arxiv情報

著者 Ahmed Ben Saad,Kristina Prokopetc,Josselin Kherroubi,Axel Davy,Adrien Courtois,Gabriele Facciolo
発行日 2022-11-18 11:45:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク