PT43D: A Probabilistic Transformer for Generating 3D Shapes from Single Highly-Ambiguous RGB Images

要約

単一の RGB 画像から 3D 形状を生成することは、ロボット工学などのさまざまなアプリケーションで不可欠です。
現在のアプローチは通常、オブジェクトの観察が大きく遮られたり切り取られたりする一般的な現実的なケースを考慮せず、オブジェクトの明確かつ完全な視覚的説明を含む画像をターゲットにしています。
したがって、オブジェクトの潜在的に非常に曖昧な観察を含む RGB 画像に条件付けされた 3D 形状の確率分布を生成する、トランスフォーマーベースの自己回帰モデルを提案します。
オクルージョンや視野の切り詰めなどの現実的なシナリオを処理するために、シミュレートされた画像と形状のトレーニング ペアを作成し、現実世界のシナリオに対する微調整を改善します。
次に、交差注意を採用して、形状生成のために入力画像から最も関連性の高い関心領域を効果的に特定します。
これにより、適度な多様性と入力画像との強力な整合性を備えたサンプリングされた形状の推論が可能になります。
合成データでモデルをトレーニングしてテストし、次に実世界のデータで微調整してテストします。
実験により、私たちのモデルが両方のシナリオで最先端のパフォーマンスを上回ることが実証されました。

要約(オリジナル)

Generating 3D shapes from single RGB images is essential in various applications such as robotics. Current approaches typically target images containing clear and complete visual descriptions of the object, without considering common realistic cases where observations of objects that are largely occluded or truncated. We thus propose a transformer-based autoregressive model to generate the probabilistic distribution of 3D shapes conditioned on an RGB image containing potentially highly ambiguous observations of the object. To handle realistic scenarios such as occlusion or field-of-view truncation, we create simulated image-to-shape training pairs that enable improved fine-tuning for real-world scenarios. We then adopt cross-attention to effectively identify the most relevant region of interest from the input image for shape generation. This enables inference of sampled shapes with reasonable diversity and strong alignment with the input image. We train and test our model on our synthetic data then fine-tune and test it on real-world data. Experiments demonstrate that our model outperforms state of the art in both scenarios.

arxiv情報

著者 Yiheng Xiong,Angela Dai
発行日 2024-08-06 17:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク