Instruction-based Image Manipulation by Watching How Things Move

要約

この論文では、ビデオからフレームのペアをサンプリングし、マルチモーダル大規模言語モデル (MLLM) を使用して、命令ベースの画像操作モデルをトレーニングするための編集命令を生成する、新しいデータセット構築パイプラインを紹介します。
ビデオ フレームは本質的に被写体とシーンのアイデンティティを保持し、編集中のコンテンツの一貫した保持を保証します。
さらに、ビデオ データは、他の方法ではモデル化することが難しい、非剛体な被写体の動きや複雑なカメラの動きなど、多様で自然なダイナミクスをキャプチャするため、スケーラブルなデータセット構築のための理想的なソースになります。
このアプローチを使用して、InstructMove をトレーニングするための新しいデータセットを作成します。これは、合成的に生成されたデータセットでは実現が難しい、命令ベースの複雑な操作が可能なモデルです。
私たちのモデルは、被写体のポーズの調整、要素の再配置、カメラの視点の変更などのタスクにおいて最先端のパフォーマンスを実証します。

要約(オリジナル)

This paper introduces a novel dataset construction pipeline that samples pairs of frames from videos and uses multimodal large language models (MLLMs) to generate editing instructions for training instruction-based image manipulation models. Video frames inherently preserve the identity of subjects and scenes, ensuring consistent content preservation during editing. Additionally, video data captures diverse, natural dynamics-such as non-rigid subject motion and complex camera movements-that are difficult to model otherwise, making it an ideal source for scalable dataset construction. Using this approach, we create a new dataset to train InstructMove, a model capable of instruction-based complex manipulations that are difficult to achieve with synthetically generated datasets. Our model demonstrates state-of-the-art performance in tasks such as adjusting subject poses, rearranging elements, and altering camera perspectives.

arxiv情報

著者 Mingdeng Cao,Xuaner Zhang,Yinqiang Zheng,Zhihao Xia
発行日 2024-12-16 18:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク