WorDepth: Variational Language Prior for Monocular Depth Estimation

要約

単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さを伴う不適切な問題です。
テキストの説明から 3D シーンを予測することも同様に不適切な設定、つまり説明されたオブジェクトの空間配置です。
私たちは、本質的に曖昧な 2 つのモダリティを組み合わせてメートルスケールの再構成を生成できるかどうかという問題を調査します。
これをテストするために、単眼の奥行き推定、つまり単一の画像から高密度の奥行きマップを予測する問題に焦点を当てますが、シーンを説明するテキスト キャプションが追加されます。
この目的のために、テキスト キャプションを平均値と標準偏差としてエンコードすることから始めます。
変分フレームワークを使用して、テキスト キャプションに対応する 3D シーンのもっともらしい計量再構成の分布を事前に学習します。
特定の再構成または深度マップを「選択」するには、変分テキスト エンコーダーの潜在空間からサンプリングする条件付きサンプラーを通じて指定された画像をエンコードし、出力深度マップにデコードされます。
私たちのアプローチは、テキスト ブランチと画像ブランチの間で交互にトレーニングされます。1 つの最適化ステップでは、テキストの説明と標準ガウスからのサンプルから平均と標準偏差を予測し、もう 1 つの最適化ステップでは、(画像) 条件付きサンプラーを使用してサンプリングします。
トレーニングが完了したら、条件付きサンプラーを使用して、エンコードされたテキストから深度を直接予測します。
屋内 (NYUv2) と屋外 (KITTI) のシナリオに対するアプローチを実証し、言語が両方のシナリオで一貫してパフォーマンスを向上できることを示します。

要約(オリジナル)

Three-dimensional (3D) reconstruction from a single image is an ill-posed problem with inherent ambiguities, i.e. scale. Predicting a 3D scene from text description(s) is similarly ill-posed, i.e. spatial arrangements of objects described. We investigate the question of whether two inherently ambiguous modalities can be used in conjunction to produce metric-scaled reconstructions. To test this, we focus on monocular depth estimation, the problem of predicting a dense depth map from a single image, but with an additional text caption describing the scene. To this end, we begin by encoding the text caption as a mean and standard deviation; using a variational framework, we learn the distribution of the plausible metric reconstructions of 3D scenes corresponding to the text captions as a prior. To ‘select’ a specific reconstruction or depth map, we encode the given image through a conditional sampler that samples from the latent space of the variational text encoder, which is then decoded to the output depth map. Our approach is trained alternatingly between the text and image branches: in one optimization step, we predict the mean and standard deviation from the text description and sample from a standard Gaussian, and in the other, we sample using a (image) conditional sampler. Once trained, we directly predict depth from the encoded text using the conditional sampler. We demonstrate our approach on indoor (NYUv2) and outdoor (KITTI) scenarios, where we show that language can consistently improve performance in both.

arxiv情報

著者 Ziyao Zeng,Hyoungseob Park,Daniel Wang,Fengyu Yang,Yangchao Wu,Stefano Soatto,Byung-Woo Hong,Dong Lao,Alex Wong
発行日 2024-05-24 16:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク