Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

要約

創造性は知性の基本的な側面であり、多様なコンテキスト全体で斬新で適切なソリューションを生成する能力を伴います。
大規模な言語モデル(LLM)は創造的な能力について広範囲に評価されていますが、このドメインにおけるマルチモーダル大手言語モデル(MLLM)の評価はほとんど未開拓のままです。
このギャップに対処するために、実際の画像ベースのタスクにおけるMLLMの創造的能力を評価するために特別に設計されたマルチモーダルベンチマークであるCreation-Mmbenchを紹介します。
ベンチマークは、51の細かいタスクにまたがる765のテストケースで構成されています。
厳密な評価を確保するために、各テストケースのインスタンス固有の評価基準を定義し、一般的な応答の品質と視覚入力との事実上の一貫性の両方の評価を導きます。
実験結果は、現在のオープンソースMLLMが創造的なタスクの独自モデルと比較して大幅にパフォーマンスが低いことを明らかにしています。
さらに、我々の分析は、視覚的な微調整がベースLLMの創造的能力に悪影響を与える可能性があることを示しています。
Creation-Mmbenchは、MLLMの創造性を高めるための貴重な洞察を提供し、マルチモーダル生成インテリジェンスの将来の改善の基盤を確立します。
完全なデータと評価コードは、https://github.com/open-compass/creation-mmbenchでリリースされます。

要約(オリジナル)

Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM’s creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.

arxiv情報

著者 Xinyu Fang,Zhijian Chen,Kai Lan,Lixin Ma,Shengyuan Ding,Yingji Liang,Xiangyu Zhao,Farong Wen,Zicheng Zhang,Guofeng Zhang,Haodong Duan,Kai Chen,Dahua Lin
発行日 2025-03-19 17:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク