要約
ステレオマッチングの対応を解くことにより、非常に異なる解像度を特徴とする同期カラー(RGB)およびマルチスペクトル(MS)画像を登録する問題に対処します。
意図的に、屋内環境で13の異なるシーンをフレーミングし、視差マップの形式で半高密度、高解像度のグラウンドトゥルースラベルで注釈が付けられた合計34の画像ペアを提供する新しいRGB-MSデータセットを紹介します。
このタスクに取り組むために、トレーニングデータの取得中にのみ必要となる追加のRGBカメラを活用することにより、自己監視方式でトレーニングされた深層学習アーキテクチャを提案します。
このセットアップでは、約11Kのラベルなし画像トリプレットのコレクションに基づくより簡単なRGB-RGBマッチングタスクから知識を抽出することにより、グラウンドトゥルースラベルがない場合のクロスモーダルマッチングを便利に学習できます。
実験によると、提案されたパイプラインは、この斬新でやりがいのあるタスクに関する将来の研究のために、優れたパフォーマンスバー(平均1.16ピクセルの登録エラー)を設定します。
要約(オリジナル)
We address the problem of registering synchronized color (RGB) and multi-spectral (MS) images featuring very different resolution by solving stereo matching correspondences. Purposely, we introduce a novel RGB-MS dataset framing 13 different scenes in indoor environments and providing a total of 34 image pairs annotated with semi-dense, high-resolution ground-truth labels in the form of disparity maps. To tackle the task, we propose a deep learning architecture trained in a self-supervised manner by exploiting a further RGB camera, required only during training data acquisition. In this setup, we can conveniently learn cross-modal matching in the absence of ground-truth labels by distilling knowledge from an easier RGB-RGB matching task based on a collection of about 11K unlabeled image triplets. Experiments show that the proposed pipeline sets a good performance bar (1.16 pixels average registration error) for future research on this novel, challenging task.
arxiv情報
著者 | Fabio Tosi,Pierluigi Zama Ramirez,Matteo Poggi,Samuele Salti,Stefano Mattoccia,Luigi Di Stefano |
発行日 | 2022-06-14 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google