要約
リアルタイム ステレオ マッチングは、屋内 3D 理解、ビデオ パススルー、複合現実ゲームなど、多くの拡張現実 (XR) アプリケーションの基礎となるアルゴリズムです。
ディープステレオ法が大幅に進歩したにもかかわらず、低電力デバイス上で高精度のリアルタイム深度推論を達成することは依然として大きな課題です。
大きな問題の 1 つは、ヘッドマウント VR/AR メガネでキャプチャされた高品質の屋内ビデオ ステレオ トレーニング データセットが不足していることです。
この問題に対処するために、さまざまな屋内シーンのフォトリアリスティックなレンダリングと、6-DoF の可動 VR/AR ヘッドマウント ディスプレイ (HMD) によってキャプチャされたリアルなカメラ モーションで構成される、新しいビデオ ステレオ合成データセットを導入します。
これにより、既存のアプローチの評価が容易になり、屋内拡張現実シナリオに関するさらなる研究が促進されます。
私たちが新しく提案したデータセットにより、連続的なビデオレートのステレオマッチングのための新しいフレームワークを開発することができます。
もう 1 つの貢献として、私たちのデータセットにより、XR アプリケーションに合わせた新しいビデオベースのステレオ マッチング アプローチを提案できるようになり、標準的なデスクトップ コンピューターでは 134 fps、バッテリー駆動の HMD では 30 fps という驚異的な速度でリアルタイム推論を実現できます。
私たちの重要な洞察は、視差とコンテキスト情報は連続するステレオ フレーム間で高度に相関しており、冗長であるということです。
反復的なコスト集計を時間内 (つまり、時間次元で) 展開することにより、集計された機能を長期にわたって分散および再利用できます。
このアプローチにより、精度を犠牲にすることなく、計算量が大幅に削減されます。
私たちは広範な評価と比較を実施し、私たちの手法が現在の最先端技術と比較して優れたパフォーマンスを達成し、VR/AR アプリケーションにおけるリアルタイム ステレオ マッチングの強力な候補となることを実証しました。
要約(オリジナル)
Real-time Stereo Matching is a cornerstone algorithm for many Extended Reality (XR) applications, such as indoor 3D understanding, video pass-through, and mixed-reality games. Despite significant advancements in deep stereo methods, achieving real-time depth inference with high accuracy on a low-power device remains a major challenge. One of the major difficulties is the lack of high-quality indoor video stereo training datasets captured by head-mounted VR/AR glasses. To address this issue, we introduce a novel video stereo synthetic dataset that comprises photorealistic renderings of various indoor scenes and realistic camera motion captured by a 6-DoF moving VR/AR head-mounted display (HMD). This facilitates the evaluation of existing approaches and promotes further research on indoor augmented reality scenarios. Our newly proposed dataset enables us to develop a novel framework for continuous video-rate stereo matching. As another contribution, our dataset enables us to proposed a new video-based stereo matching approach tailored for XR applications, which achieves real-time inference at an impressive 134fps on a standard desktop computer, or 30fps on a battery-powered HMD. Our key insight is that disparity and contextual information are highly correlated and redundant between consecutive stereo frames. By unrolling an iterative cost aggregation in time (i.e. in the temporal dimension), we are able to distribute and reuse the aggregated features over time. This approach leads to a substantial reduction in computation without sacrificing accuracy. We conducted extensive evaluations and comparisons and demonstrated that our method achieves superior performance compared to the current state-of-the-art, making it a strong contender for real-time stereo matching in VR/AR applications.
arxiv情報
著者 | Ziang Cheng,Jiayu Yang,Hongdong Li |
発行日 | 2023-09-08 07:53:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google