PT43D: A Probabilistic Transformer for Generating 3D Shapes from Single Highly-Ambiguous RGB Images


単一の RGB 画像から 3D 形状を生成することは、ロボット工学などのさまざまなアプリケーションで不可欠です。
したがって、オブジェクトの潜在的に非常に曖昧な観察を含む RGB 画像に条件付けされた 3D 形状の確率分布を生成する、トランスフォーマーベースの自己回帰モデルを提案します。
オクルージョンや視野の切り詰めなどの現実的なシナリオを処理するために、シミュレートされた画像と形状のトレーニング ペアを作成し、現実世界のシナリオに対する微調整を改善します。


Generating 3D shapes from single RGB images is essential in various applications such as robotics. Current approaches typically target images containing clear and complete visual descriptions of the object, without considering common realistic cases where observations of objects that are largely occluded or truncated. We thus propose a transformer-based autoregressive model to generate the probabilistic distribution of 3D shapes conditioned on an RGB image containing potentially highly ambiguous observations of the object. To handle realistic scenarios such as occlusion or field-of-view truncation, we create simulated image-to-shape training pairs that enable improved fine-tuning for real-world scenarios. We then adopt cross-attention to effectively identify the most relevant region of interest from the input image for shape generation. This enables inference of sampled shapes with reasonable diversity and strong alignment with the input image. We train and test our model on our synthetic data then fine-tune and test it on real-world data. Experiments demonstrate that our model outperforms state of the art in both scenarios.


著者 Yiheng Xiong,Angela Dai
発行日 2024-08-06 17:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク