要約
合成画像の生成は、コンピュータービジョンモデルをトレーニングするためのラベル付きデータを安価に取得するための便利な方法です。
ただし、関連するオブジェクトの正確な3Dモデルを取得することが必要であり、結果の画像は、照明効果とカメラアーティファクトのシミュレーションにおける課題により、多くの場合、リアリズムにギャップがあることがよくあります。
これらの課題に対処するために、Gaussian Splattingと呼ばれる新しいビュー合成方法を使用して提案します。
特定のオブジェクトの高品質のコンテキスト対応インスタンスセグメンテーショントレーニングデータを生成するための合成データパイプラインを開発しました。
このプロセスは完全に自動化されており、ターゲットオブジェクトのビデオのみが必要です。
ターゲットオブジェクトのガウススプラットモデルをトレーニングし、ビデオからオブジェクトを自動的に抽出します。
ガウスのスプラッティングを活用して、オブジェクトをランダムな背景画像にレンダリングし、単眼の深さの推定を使用して、オブジェクトを信じられるポーズに配置します。
新しいデータセットを導入して、アプローチを検証し、カットアンドペーストや拡散モデルベースの生成など、他のデータ生成アプローチよりも優れたパフォーマンスを示します。
要約(オリジナル)
Generating synthetic images is a useful method for cheaply obtaining labeled data for training computer vision models. However, obtaining accurate 3D models of relevant objects is necessary, and the resulting images often have a gap in realism due to challenges in simulating lighting effects and camera artifacts. We propose using the novel view synthesis method called Gaussian Splatting to address these challenges. We have developed a synthetic data pipeline for generating high-quality context-aware instance segmentation training data for specific objects. This process is fully automated, requiring only a video of the target object. We train a Gaussian Splatting model of the target object and automatically extract the object from the video. Leveraging Gaussian Splatting, we then render the object on a random background image, and monocular depth estimation is employed to place the object in a believable pose. We introduce a novel dataset to validate our approach and show superior performance over other data generation approaches, such as Cut-and-Paste and Diffusion model-based generation.
arxiv情報
著者 | Bram Vanherle,Brent Zoomers,Jeroen Put,Frank Van Reeth,Nick Michiels |
発行日 | 2025-04-11 12:04:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google