A Practical Stereo Depth System for Smart Glasses

要約

タイトル: スマートグラスの実際的なステレオ深度システム
要約: ステレオ深度感知システムのデザインを提供し、前処理、オンラインステレオ補正、ステレオ深度推定を行うエンドツーエンドのプロダクション化されたステレオ深度感知システムを考えます。ステレオ補正が信頼できない場合は、単眼深度推定にフォールバックします。深度感知システムの出力は、スマートグラスでキャプチャされた視点画像を使用して、3D計算写真効果を作成するために新しいビュージェネレーションパイプラインに使用されます。これらのすべてのステップは、モバイル電話の厳格なコンピュート予算でデバイス上で実行されるため、ユーザーが様々なスマートフォンを使用できることを期待しているため、当社のデザインは一般的である必要があるため、特定のハードウェアやスマートフォンのGPUなどのMLアクセラレータに依存することはできません。これらの各ステップはよく研究されていますが、実用的なシステムの説明がまだ不足しています。このようなシステムでは、これらのすべてのステップが協調して動作し、システム内の障害や理想的でない入力データに対して優れたフォールバックを提供する必要があります。私たちは、熱などのキャリブレーションに予期せぬ変更を処理する方法、野生の深度推定を堅牢にサポートする方法、スムーズなユーザーエクスペリエンスに必要なメモリとレイテンシ制約に従う方法を示します。トレーニングされたモデルが高速であることを示し、6年前のサムスンGalaxy S8の電話のCPUで1秒未満で実行できることを示します。モデルが未知のデータにもうまく一般化され、Middleburyやスマートグラスからキャプチャされた野生のイメージで良い結果が得られることを示します。

要約(オリジナル)

We present the design of a productionized end-to-end stereo depth sensing system that does pre-processing, online stereo rectification, and stereo depth estimation with a fallback to monocular depth estimation when rectification is unreliable. The output of our depth sensing system is then used in a novel view generation pipeline to create 3D computational photography effects using point-of-view images captured by smart glasses. All these steps are executed on-device on the stringent compute budget of a mobile phone, and because we expect the users can use a wide range of smartphones, our design needs to be general and cannot be dependent on a particular hardware or ML accelerator such as a smartphone GPU. Although each of these steps is well studied, a description of a practical system is still lacking. For such a system, all these steps need to work in tandem with one another and fallback gracefully on failures within the system or less than ideal input data. We show how we handle unforeseen changes to calibration, e.g., due to heat, robustly support depth estimation in the wild, and still abide by the memory and latency constraints required for a smooth user experience. We show that our trained models are fast, and run in less than 1s on a six-year-old Samsung Galaxy S8 phone’s CPU. Our models generalize well to unseen data and achieve good results on Middlebury and in-the-wild images captured from the smart glasses.

arxiv情報

著者 Jialiang Wang,Daniel Scharstein,Akash Bapat,Kevin Blackburn-Matzen,Matthew Yu,Jonathan Lehman,Suhib Alsisan,Yanghan Wang,Sam Tsai,Jan-Michael Frahm,Zijian He,Peter Vajda,Michael F. Cohen,Matt Uyttendaele
発行日 2023-03-31 07:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク