要約
ラージ・マルチ・モダリティ・モデル(LMM)は、視覚の理解と生成において大きな進歩を遂げたが、一般的な視覚編集においては、特に複雑な指示に従うこと、外観の一貫性を保つこと、柔軟な入力形式をサポートすることなどの課題に直面している。このギャップに対処するため、我々は推論に基づくビジュアル編集(RISE)を評価する最初のベンチマークであるRISEBenchを紹介する。RISEBenchは4つの主要な推論タイプに焦点を当てている:時間的推論、因果的推論、空間的推論、論理的推論である。各カテゴリごとに高品質なテストケースを作成し、人間のジャッジとLMM-as-a-judgeアプローチの両方で、命令推論、外観の一貫性、視覚的妥当性を評価する評価フレームワークを提案する。我々の実験により、GPT-4o-Nativeは他のオープンソースやプロプライエタリモデルを大きく上回るが、この最先端のシステムでさえ論理的推論タスクでは苦戦することが明らかになった。初期の取り組みとして、RISEBenchは推論を考慮したビジュアル編集に関する基礎的な洞察を提供し、将来の研究を促進することを目的としています。まだ初期段階ですが、次世代のマルチモーダルシステムのより包括的で、信頼性が高く、スケーラブルな評価をサポートするために、このベンチマークを継続的に拡張し、改良していきます。我々のコードとデータは、https://github.com/PhoenixZ810/RISEBench。
要約(オリジナル)
Large Multi-modality Models (LMMs) have made significant progress in visual understanding and generation, but they still face challenges in General Visual Editing, particularly in following complex instructions, preserving appearance consistency, and supporting flexible input formats. To address this gap, we introduce RISEBench, the first benchmark for evaluating Reasoning-Informed viSual Editing (RISE). RISEBench focuses on four key reasoning types: Temporal, Causal, Spatial, and Logical Reasoning. We curate high-quality test cases for each category and propose an evaluation framework that assesses Instruction Reasoning, Appearance Consistency, and Visual Plausibility with both human judges and an LMM-as-a-judge approach. Our experiments reveal that while GPT-4o-Native significantly outperforms other open-source and proprietary models, even this state-of-the-art system struggles with logical reasoning tasks, highlighting an area that remains underexplored. As an initial effort, RISEBench aims to provide foundational insights into reasoning-aware visual editing and to catalyze future research. Though still in its early stages, we are committed to continuously expanding and refining the benchmark to support more comprehensive, reliable, and scalable evaluations of next-generation multimodal systems. Our code and data will be released at https://github.com/PhoenixZ810/RISEBench.
arxiv情報
| 著者 | Xiangyu Zhao,Peiyuan Zhang,Kexian Tang,Hao Li,Zicheng Zhang,Guangtao Zhai,Junchi Yan,Hua Yang,Xue Yang,Haodong Duan |
| 発行日 | 2025-04-03 17:59:56+00:00 |
| arxivサイト | arxiv_id(pdf) |