要約
1枚の画像からの3次元(3D)再構成は、スケールなどの曖昧さを内在する非投与問題である。テキスト記述から3Dシーンを予測することも、同様に、記述されたオブジェクトの空間的配置など、非投与的な問題である。我々は、2つの本質的にあいまいなモダリティを組み合わせて使用することで、メトリックスケールの再構成が可能かどうかを調べる。これを検証するために、我々は単眼的奥行き推定、つまり1枚の画像から高密度の奥行きマップを予測する問題に焦点を当てるが、シーンを説明するテキストキャプションを追加する。この目的のために、テキストキャプションを平均と標準偏差として符号化することから始める。変分フレームワークを用いて、テキストキャプションに対応する3Dシーンのもっともらしいメトリック再構成の分布を事前学習として学習する。特定の再構成や深度マップを「選択」するために、変分テキストエンコーダの潜在空間からサンプリングする条件付きサンプラを通して与えられた画像をエンコードし、それを出力深度マップにデコードする。我々のアプローチは、テキストと画像の分岐の間で交互に学習される。1つの最適化ステップでは、テキストの記述から平均と標準偏差を予測し、標準ガウスからサンプリングし、もう1つの最適化ステップでは、(画像の)条件付きサンプラーを使ってサンプリングする。一旦訓練されると、条件付きサンプラーを用いて、符号化されたテキストから深度を直接予測する。我々は、屋内(NYUv2)と屋外(KITTI)のシナリオで我々のアプローチを実証し、言語が両方のパフォーマンスを一貫して改善できることを示す。
要約(オリジナル)
Three-dimensional (3D) reconstruction from a single image is an ill-posed problem with inherent ambiguities, i.e. scale. Predicting a 3D scene from text description(s) is similarly ill-posed, i.e. spatial arrangements of objects described. We investigate the question of whether two inherently ambiguous modalities can be used in conjunction to produce metric-scaled reconstructions. To test this, we focus on monocular depth estimation, the problem of predicting a dense depth map from a single image, but with an additional text caption describing the scene. To this end, we begin by encoding the text caption as a mean and standard deviation; using a variational framework, we learn the distribution of the plausible metric reconstructions of 3D scenes corresponding to the text captions as a prior. To ‘select’ a specific reconstruction or depth map, we encode the given image through a conditional sampler that samples from the latent space of the variational text encoder, which is then decoded to the output depth map. Our approach is trained alternatingly between the text and image branches: in one optimization step, we predict the mean and standard deviation from the text description and sample from a standard Gaussian, and in the other, we sample using a (image) conditional sampler. Once trained, we directly predict depth from the encoded text using the conditional sampler. We demonstrate our approach on indoor (NYUv2) and outdoor (KITTI) scenarios, where we show that language can consistently improve performance in both.
arxiv情報
著者 | Ziyao Zeng,Daniel Wang,Fengyu Yang,Hyoungseob Park,Yangchao Wu,Stefano Soatto,Byung-Woo Hong,Dong Lao,Alex Wong |
発行日 | 2024-04-04 17:54:33+00:00 |
arxivサイト | arxiv_id(pdf) |