要約
マルチモーダル深度推定は、自律マシンに堅牢なロボット認識機能を与えるための重要な課題の 1 つです。
豊富な解像度を備えた単眼カメラ、または提供される正確な幾何学的データを備えた LiDAR センサーに基づくユニモーダル深度推定技術の開発は目覚ましい進歩を遂げています。
ただし、これらのそれぞれには、カメラの場合は照明条件の変化に対する感度が高く、LiDAR の場合は解像度が制限されるなど、いくつかの固有の欠点があります。
センサー フュージョンを使用すると、これら 2 種類のセンサーの長所を組み合わせて欠点を補うことができます。
それにもかかわらず、現在の融合方法は高いレベルで機能します。
センサー データ ストリームを個別に処理し、センサーごとに取得された高レベルの推定値を組み合わせます。
この論文では、この問題に低レベルで取り組み、生のセンサー ストリームを融合して、高密度かつ正確な深度推定値を取得します。これは、より高いレベルの推定問題に対する統合されたマルチモーダル データ ソースとして使用できます。
この研究では、複数のジオメトリと外観の可能性を備えた条件付きランダム フィールド モデルを提案しています。
これは、カメラと LiDAR データから高密度深度マップを推定する問題をシームレスに表します。
モデルは共役勾配二乗アルゴリズムを使用して効率的に最適化できます。
提案された方法は、一般的に使用されている KITTI ベンチマーク データセットを使用して評価され、最先端の方法と比較されました。
要約(オリジナル)
Multi-modal depth estimation is one of the key challenges for endowing autonomous machines with robust robotic perception capabilities. There have been outstanding advances in the development of uni-modal depth estimation techniques based on either monocular cameras, because of their rich resolution, or LiDAR sensors, due to the precise geometric data they provide. However, each of these suffers from some inherent drawbacks, such as high sensitivity to changes in illumination conditions in the case of cameras and limited resolution for the LiDARs. Sensor fusion can be used to combine the merits and compensate for the downsides of these two kinds of sensors. Nevertheless, current fusion methods work at a high level. They process the sensor data streams independently and combine the high-level estimates obtained for each sensor. In this paper, we tackle the problem at a low level, fusing the raw sensor streams, thus obtaining depth estimates which are both dense and precise, and can be used as a unified multi-modal data source for higher level estimation problems. This work proposes a Conditional Random Field model with multiple geometry and appearance potentials. It seamlessly represents the problem of estimating dense depth maps from camera and LiDAR data. The model can be optimized efficiently using the Conjugate Gradient Squared algorithm. The proposed method was evaluated and compared with the state-of-the-art using the commonly used KITTI benchmark dataset.
arxiv情報
著者 | Johan S. Obando-Ceron,Victor Romero-Cano,Sildomar Monteiro |
発行日 | 2023-07-20 01:39:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google