要約
非剛体運動、カメラの視点移動、物体の変形、人間の関節運動、複雑なインタラクションを反映した指示による画像の編集は、コンピュータビジョンにおいて、挑戦的でありながら未開拓の問題を提起している。既存のアプローチやデータセットは、主に静的なシーンや剛体変換に焦点を当てており、動的な動きを含む表現的な編集を扱う能力が制限されている。このギャップに対処するために、非剛体運動に重点を置いた、指示に基づく画像編集のための包括的なフレームワークであるByteMorphを紹介する。ByteMorphは、大規模なデータセットであるByteMorph-6Mと、ByteMorpherと名付けられた拡散変換器(DiT)に基づいて構築された強力なベースラインモデルから構成される。ByteMorph-6Mには、トレーニング用の600万を超える高解像度画像編集ペアが含まれ、入念にキュレーションされた評価ベンチマークByteMorph-Benchも含まれている。両者とも、多様な環境、人物、物体のカテゴリにわたる、多種多様な非剛体モーションをキャプチャしている。このデータセットは、多様性、リアルさ、意味の一貫性を確保するために、モーションガイドによるデータ生成、レイヤー合成技術、自動キャプション付けを用いて構築されている。さらに、学術的および商業的な領域からの最近の指示ベースの画像編集手法の包括的な評価を行う。
要約(オリジナル)
Editing images with instructions to reflect non-rigid motions, camera viewpoint shifts, object deformations, human articulations, and complex interactions, poses a challenging yet underexplored problem in computer vision. Existing approaches and datasets predominantly focus on static scenes or rigid transformations, limiting their capacity to handle expressive edits involving dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive framework for instruction-based image editing with an emphasis on non-rigid motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher. ByteMorph-6M includes over 6 million high-resolution image editing pairs for training, along with a carefully curated evaluation benchmark ByteMorph-Bench. Both capture a wide variety of non-rigid motion types across diverse environments, human figures, and object categories. The dataset is constructed using motion-guided data generation, layered compositing techniques, and automated captioning to ensure diversity, realism, and semantic coherence. We further conduct a comprehensive evaluation of recent instruction-based image editing methods from both academic and commercial domains.
arxiv情報
著者 | Di Chang,Mingdeng Cao,Yichun Shi,Bo Liu,Shengqu Cai,Shijie Zhou,Weilin Huang,Gordon Wetzstein,Mohammad Soleymani,Peng Wang |
発行日 | 2025-06-03 17:39:47+00:00 |
arxivサイト | arxiv_id(pdf) |