Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

要約

画像編集モデルは、オブジェクトの置換、属性やスタイルの変更、アクションや動きの実行に至るまで、さまざまな形式の推論を必要とする多様な編集を実行できる必要があります。
現在の一般的な指示ガイド付き編集モデルには、アクションと推論中心の編集に関して重大な欠点があります。
オブジェクト、属性、またはスタイルの変更は、視覚的に静的なデータセットから学習できます。
一方で、アクションや推論中心の編集のための高品質なデータは希少であり、例えば映画や映画などをカバーする全く異なるソースから入手する必要があります。
物理力学、時間性、空間的推論。
この目的を達成するために、私たちは人間による注釈が付けられ、ビデオやシミュレーション エンジンから厳選された高品質のトレーニング データのコレクションである AURORA データセット (アクション-推論-オブジェクト-属性) を細心の注意を払って厳選しています。
私たちは、高品質のトレーニング データの重要な側面に焦点を当てています。つまり、トリプレット (ソース画像、プロンプト、ターゲット画像) には、プロンプトによって説明される単一の意味のある視覚的変化、つまりソース画像とターゲット画像の間の真に最小限の変化が含まれています。
データセットの価値を実証するために、8 つの多様な編集タスクをカバーする、専門家が厳選した新しいベンチマーク (AURORA-Bench) で AURORA で微調整されたモデルを評価します。
私たちのモデルは、人間の評価者によって判断された場合、以前の編集モデルを大幅に上回っています。
自動評価については、以前のメトリクスに重大な欠陥があることが判明し、意味的に難しい編集タスクへの使用に注意を払いました。
代わりに、識別的な理解に焦点を当てた新しい自動測定基準を提案します。
私たちは、(1) 高品質のトレーニング データセットと評価ベンチマークの厳選、(2) 重要な評価の開発、(3) 最先端のモデルのリリースという私たちの取り組みが、一般的な画像編集のさらなる進歩を促進することを願っています。

要約(オリジナル)

An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.

arxiv情報

著者 Benno Krojer,Dheeraj Vattikonda,Luis Lara,Varun Jampani,Eva Portelance,Christopher Pal,Siva Reddy
発行日 2024-10-17 15:12:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク