要約
生成モデル、特に拡散ベースの技術の急速な進歩により、高忠実度で多様なコンテンツの生成が可能になり、画像修復タスクに革命が起こりました。
ただし、修復の特定のサブセットとしてのオブジェクトの削除は依然として十分に研究されておらず、不十分なセマンティック理解や意図しないアーティファクトの生成などの課題に直面しています。
オブジェクトを削除するための既存のデータセットは合成データに依存していることが多く、現実世界のシナリオと一致せず、モデルのパフォーマンスが制限されます。
一部の実世界のデータセットはこれらの問題に部分的に対処していますが、スケーラビリティ、アノテーションの非効率性、照明や影などの物理現象の現実性の限界といった問題を抱えています。
これらの制限に対処するために、この論文では、固定カメラ設定での長時間のビデオ キャプチャを通じて高解像度の実世界データセットを構築することにより、オブジェクトを削除する新しいアプローチを紹介します。
自動アノテーション用に Grounding-DINO、Segment-Anything-Model、MASA などの高度なツールを活用して、画像、背景、マスクのペアを提供しながら、アノテーションの時間と労力を大幅に削減します。
効率的なアノテーション パイプラインを使用して、物体除去用の最初の完全にオープンな高解像度の実世界データセットをリリースし、事前トレーニングされた拡散モデルの微調整を通じて物体除去タスクのパフォーマンスを向上させます。
要約(オリジナル)
The rapid advancements in generative models, particularly diffusion-based techniques, have revolutionized image inpainting tasks by enabling the generation of high-fidelity and diverse content. However, object removal remains under-explored as a specific subset of inpainting, facing challenges such as inadequate semantic understanding and the unintended generation of artifacts. Existing datasets for object removal often rely on synthetic data, which fails to align with real-world scenarios, limiting model performance. Although some real-world datasets address these issues partially, they suffer from scalability, annotation inefficiencies, and limited realism in physical phenomena such as lighting and shadows. To address these limitations, this paper introduces a novel approach to object removal by constructing a high-resolution real-world dataset through long-duration video capture with fixed camera settings. Leveraging advanced tools such as Grounding-DINO, Segment-Anything-Model, and MASA for automated annotation, we provides image, background, and mask pairs while significantly reducing annotation time and labor. With our efficient annotation pipeline, we release the first fully open, high-resolution real-world dataset for object removal, and improved performance in object removal tasks through fine-tuning of pre-trained diffusion models.
arxiv情報
著者 | Shuo Zhang,Runpu Wei,Kongming Liang |
発行日 | 2025-01-13 15:12:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google