要約
ビデオコメントアートは、ユーモア、風刺、または感情的な共鳴を伝える創造的なコンテンツを提供することにより、ユーザーのエンゲージメントを強化し、文化的および文脈上の微妙さを微妙かつ包括的に把握する必要があります。
マルチモーダルの大手言語モデル(MLLM)とチェーンオブシュート(COT)は、STEMタスク(数学やコーディングなど)の強力な推論能力を実証していますが、共鳴冗談や洞察力に富んだ風刺などの創造的な表現を生成するのに苦労しています。
さらに、既存のベンチマークは、限られたモダリティと不十分なカテゴリによって制約されており、ビデオベースのコメントアート作成における包括的な創造性の調査を妨げています。
これらの制限に対処するために、ビデオとテキストのモダリティを統合してMLLMSのコメントアートを作成する能力を体系的に評価する新しいベンチマークであるGodbenchを紹介します。
さらに、物理学における波の伝播パターンに触発されて、MLLMの創造性を高めるために設計されたマルチステップ推論フレームワークである思考の波紋(ROT)を提案します。
広範な実験により、既存のMLLMとCOTの方法は、創造的なビデオコメントの理解と生成において依然として大きな課題に直面していることが明らかになりました。
対照的に、ROTは創造的な作曲を改善するための効果的なアプローチを提供し、MLLMベースの創造性の有意義な進歩を促進する可能性を強調しています。
Godbenchはhttps://github.com/stan-lei/godbench-acl2025で公開されています。
要約(オリジナル)
Video Comment Art enhances user engagement by providing creative content that conveys humor, satire, or emotional resonance, requiring a nuanced and comprehensive grasp of cultural and contextual subtleties. Although Multimodal Large Language Models (MLLMs) and Chain-of-Thought (CoT) have demonstrated strong reasoning abilities in STEM tasks (e.g. mathematics and coding), they still struggle to generate creative expressions such as resonant jokes and insightful satire. Moreover, existing benchmarks are constrained by their limited modalities and insufficient categories, hindering the exploration of comprehensive creativity in video-based Comment Art creation. To address these limitations, we introduce GODBench, a novel benchmark that integrates video and text modalities to systematically evaluate MLLMs’ abilities to compose Comment Art. Furthermore, inspired by the propagation patterns of waves in physics, we propose Ripple of Thought (RoT), a multi-step reasoning framework designed to enhance the creativity of MLLMs. Extensive experiments reveal that existing MLLMs and CoT methods still face significant challenges in understanding and generating creative video comments. In contrast, RoT provides an effective approach to improve creative composing, highlighting its potential to drive meaningful advancements in MLLM-based creativity. GODBench is publicly available at https://github.com/stan-lei/GODBench-ACL2025.
arxiv情報
著者 | Chenkai Zhang,Yiming Lei,Zeming Liu,Haitao Leng,Shaoguo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang |
発行日 | 2025-05-16 16:56:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google