MObI: Multimodal Object Inpainting Using Diffusion Models

要約

自動運転などの安全性が重要なアプリケーションでは、厳密なテストのために広範なマルチモーダル データが必要です。
合成データに基づく方法は、実世界のデータを収集するコストと複雑さのため注目を集めていますが、有用であるためには高度な現実性と制御性が必要です。
このペーパーでは、拡散モデルを活用して知覚モダリティ全体で現実的で制御可能なオブジェクト修復を作成するマルチモーダル オブジェクト修復の新しいフレームワークである MObI を紹介し、カメラと LIDAR の両方で同時に実証されています。
MObI では、単一の参照 RGB イメージを使用して、セマンティックな一貫性とマルチモーダルの一貫性を維持しながら、バウンディング ボックスで指定された 3D 位置にある既存のマルチモーダル シーンにオブジェクトをシームレスに挿入できます。
編集マスクのみに依存する従来の修復方法とは異なり、3D バウンディング ボックス コンディショニングにより、オブジェクトに正確な空間位置決めと現実的なスケーリングが提供されます。
その結果、私たちのアプローチを使用して新しいオブジェクトをマルチモーダルなシーンに柔軟に挿入することができ、知覚モデルのテストに大きな利点をもたらします。

要約(オリジナル)

Safety-critical applications, such as autonomous driving, require extensive multimodal data for rigorous testing. Methods based on synthetic data are gaining prominence due to the cost and complexity of gathering real-world data but require a high degree of realism and controllability in order to be useful. This paper introduces MObI, a novel framework for Multimodal Object Inpainting that leverages a diffusion model to create realistic and controllable object inpaintings across perceptual modalities, demonstrated for both camera and lidar simultaneously. Using a single reference RGB image, MObI enables objects to be seamlessly inserted into existing multimodal scenes at a 3D location specified by a bounding box, while maintaining semantic consistency and multimodal coherence. Unlike traditional inpainting methods that rely solely on edit masks, our 3D bounding box conditioning gives objects accurate spatial positioning and realistic scaling. As a result, our approach can be used to insert novel objects flexibly into multimodal scenes, providing significant advantages for testing perception models.

arxiv情報

著者 Alexandru Buburuzan,Anuj Sharma,John Redford,Puneet K. Dokania,Romain Mueller
発行日 2025-01-06 17:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク