Towards the Probabilistic Fusion of Learned Priors into Standard Pipelines for 3D Reconstruction

要約

ディープラーニングの結果を標準の3D再構成パイプラインと組み合わせる最良の方法は、未解決の問題のままです。
正則化または改良のために従来のマルチビューステレオアプローチの出力をネットワークに渡すシステムは現在最良の結果を得るように見えますが、深いニューラルネットワークを個別のコンポーネントとして扱い、その結果を確率的にジオメトリベースに融合できることが望ましい場合があります。
システム。
残念ながら、このタイプの融合を行うために必要なエラーモデルは十分に理解されておらず、多くの異なるアプローチが提案されています。
最近、いくつかのシステムは、ネットワークに単一の値ではなく確率分布を予測させることにより、良好な結果を達成しています。
このアプローチを使用して、学習した単一ビューの深度を標準の3D再構成システムに融合することを提案します。
私たちのシステムは、一連のキーフレームの密な深度マップを段階的に作成することができます。
ディープニューラルネットワークをトレーニングして、単一の画像から各ピクセルの深さの離散的なノンパラメトリック確率分布を予測します。
次に、この「確率ボリューム」を、後続のフレームとキーフレーム画像の間の測光の一貫性に基づいた別の確率ボリュームと融合します。
これらの2つのソースからの確率ボリュームを組み合わせると、より適切に調整されたボリュームが得られると主張します。
ボリュームから深度マップを抽出するために、ネットワークで予測された表面法線とオクルージョン境界に基づく正則化項を含むコスト関数を最小化します。
一連の実験を通じて、これらの各コンポーネントがシステムの全体的なパフォーマンスを向上させることを示します。

要約(オリジナル)

The best way to combine the results of deep learning with standard 3D reconstruction pipelines remains an open problem. While systems that pass the output of traditional multi-view stereo approaches to a network for regularisation or refinement currently seem to get the best results, it may be preferable to treat deep neural networks as separate components whose results can be probabilistically fused into geometry-based systems. Unfortunately, the error models required to do this type of fusion are not well understood, with many different approaches being put forward. Recently, a few systems have achieved good results by having their networks predict probability distributions rather than single values. We propose using this approach to fuse a learned single-view depth prior into a standard 3D reconstruction system. Our system is capable of incrementally producing dense depth maps for a set of keyframes. We train a deep neural network to predict discrete, nonparametric probability distributions for the depth of each pixel from a single image. We then fuse this ‘probability volume’ with another probability volume based on the photometric consistency between subsequent frames and the keyframe image. We argue that combining the probability volumes from these two sources will result in a volume that is better conditioned. To extract depth maps from the volume, we minimise a cost function that includes a regularisation term based on network predicted surface normals and occlusion boundaries. Through a series of experiments, we demonstrate that each of these components improves the overall performance of the system.

arxiv情報

著者 Tristan Laidlow,Jan Czarnowski,Andrea Nicastro,Ronald Clark,Stefan Leutenegger
発行日 2022-07-27 11:28:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク