PIV3CAMS: a multi-camera dataset for multiple computer vision problems and its application to novel view-point synthesis

要約

コンピューター ビジョン タスクの最新のアプローチは機械学習に大きく依存しており、大量の高品質の画像が必要です。
単一タイプの画像を含む画像データセットは大量にありますが、複数のカメラから収集されたデータセットは不足しています。
この論文では、複数のコンピュータ ビジョン タスクを目的とした 3 つの CAMeraS、つまり PIV3CAMS からのペアの画像データとビデオ データを紹介します。
PIV3CAMS データセットは、Canon D5 Mark IV、Huawei P20、および ZED ステレオ カメラの 3 つの異なるカメラから撮影された 8385 ペアの画像と 82 ペアのビデオで構成されています。
データセットには、チューリッヒ (スイス) と天安 (韓国) のさまざまな場所からのさまざまな屋内および屋外のシーンが含まれています。
PIV3CAMS データセットから恩恵を受けるコンピューター ビジョン アプリケーションには、画像/ビデオ拡張、ビュー補間、画像マッチングなどがあります。
データ収集のプロセスとデータの詳細な分析を丁寧に説明します。
この論文の第 2 部では、ビュー合成タスクにおける深度情報の使用法を研究します。
現在の最先端のアルゴリズムの再生成に加えて、深さ情報を幾何学的に統合するいくつかの提案された代替モデルを調査します。
広範な実験を通じて、私たちは、わずかなビューの変化において奥行きの効果が重要であることを示しました。
最後に、導入した PIV3CAMS データセットにモデルを適用して、PIV3CAMS のアプリケーション例として新しいターゲット ビューを合成します。

要約(オリジナル)

The modern approaches for computer vision tasks significantly rely on machine learning, which requires a large number of quality images. While there is a plethora of image datasets with a single type of images, there is a lack of datasets collected from multiple cameras. In this thesis, we introduce Paired Image and Video data from three CAMeraS, namely PIV3CAMS, aimed at multiple computer vision tasks. The PIV3CAMS dataset consists of 8385 pairs of images and 82 pairs of videos taken from three different cameras: Canon D5 Mark IV, Huawei P20, and ZED stereo camera. The dataset includes various indoor and outdoor scenes from different locations in Zurich (Switzerland) and Cheonan (South Korea). Some of the computer vision applications that can benefit from the PIV3CAMS dataset are image/video enhancement, view interpolation, image matching, and much more. We provide a careful explanation of the data collection process and detailed analysis of the data. The second part of this thesis studies the usage of depth information in the view synthesizing task. In addition to the regeneration of a current state-of-the-art algorithm, we investigate several proposed alternative models that integrate depth information geometrically. Through extensive experiments, we show that the effect of depth is crucial in small view changes. Finally, we apply our model to the introduced PIV3CAMS dataset to synthesize novel target views as an example application of PIV3CAMS.

arxiv情報

著者 Sohyeong Kim,Martin Danelljan,Radu Timofte,Luc Van Gool,Jean-Philippe Thiran
発行日 2024-07-26 12:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク