MObI: Multimodal Object Inpainting Using Diffusion Models

要約

自律運転などの安全性の高いアプリケーションには、厳密なテストのために広範なマルチモーダルデータが必要です。
合成データに基づく方法は、実際のデータを収集するコストと複雑さのために顕著になりますが、有用になるには高度なリアリズムと制御性が必要です。
このペーパーでは、カメラとライダーの両方に同時に実証された、拡散モデルを活用して現実的で制御可能なオブジェクトを作成して、現実的で制御可能なオブジェクトを作成するマルチモーダルオブジェクトの斬新なフレームワークであるMobiを紹介します。
単一の参照RGBイメージを使用して、Mobiは、セマンティックの一貫性とマルチモーダルコヒーレンスを維持しながら、境界ボックスで指定された3D位置で既存のマルチモーダルシーンにシームレスに挿入できるようにします。
編集マスクのみに依存する従来のインペインティング方法とは異なり、3Dバウンディングボックスコンディショニングは、オブジェクトに正確な空間位置と現実的なスケーリングを提供します。
その結果、私たちのアプローチを使用して、新しいオブジェクトをマルチモーダルシーンに柔軟に挿入し、知覚モデルのテストに大きな利点を提供します。

要約(オリジナル)

Safety-critical applications, such as autonomous driving, require extensive multimodal data for rigorous testing. Methods based on synthetic data are gaining prominence due to the cost and complexity of gathering real-world data but require a high degree of realism and controllability in order to be useful. This paper introduces MObI, a novel framework for Multimodal Object Inpainting that leverages a diffusion model to create realistic and controllable object inpaintings across perceptual modalities, demonstrated for both camera and lidar simultaneously. Using a single reference RGB image, MObI enables objects to be seamlessly inserted into existing multimodal scenes at a 3D location specified by a bounding box, while maintaining semantic consistency and multimodal coherence. Unlike traditional inpainting methods that rely solely on edit masks, our 3D bounding box conditioning gives objects accurate spatial positioning and realistic scaling. As a result, our approach can be used to insert novel objects flexibly into multimodal scenes, providing significant advantages for testing perception models.

arxiv情報

著者 Alexandru Buburuzan,Anuj Sharma,John Redford,Puneet K. Dokania,Romain Mueller
発行日 2025-04-22 11:09:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク