要約
我々は、芸術作品の美しさを評価するためにマルチモーダルLLM(MLLM)の推論能力をどのように引き出すかについての最初の研究を紹介します。
この調査を容易にするために、芸術的な様式化をベンチマークするための新しい高品質のデータセットである MM-StyleBench を構築します。
次に、人間の好みをモデリングするための原則に基づいた方法を開発し、MLLM の応答と人間の好みの間の系統的な相関分析を実行します。
私たちの実験は、反応の主観性に関連する、芸術評価におけるMLLMに固有の幻覚の問題を明らかにしました。
ArtCoT が提案され、芸術特有のタスクの分解と具体的な言語の使用が MLLM の美学に関する推論能力を高めることを実証しています。
私たちの調査結果は、アートの MLLM に関する貴重な洞察を提供し、スタイルの転送や芸術的な画像の生成など、幅広い下流アプリケーションに利益をもたらすことができます。
コードは https://github.com/songrise/MLLM4Art で入手できます。
要約(オリジナル)
We present the first study on how Multimodal LLMs’ (MLLMs) reasoning ability shall be elicited to evaluate the aesthetics of artworks. To facilitate this investigation, we construct MM-StyleBench, a novel high-quality dataset for benchmarking artistic stylization. We then develop a principled method for human preference modeling and perform a systematic correlation analysis between MLLMs’ responses and human preference. Our experiments reveal an inherent hallucination issue of MLLMs in art evaluation, associated with response subjectivity. ArtCoT is proposed, demonstrating that art-specific task decomposition and the use of concrete language boost MLLMs’ reasoning ability for aesthetics. Our findings offer valuable insights into MLLMs for art and can benefit a wide range of downstream applications, such as style transfer and artistic image generation. Code available at https://github.com/songrise/MLLM4Art.
arxiv情報
著者 | Ruixiang Jiang,Changwen Chen |
発行日 | 2025-01-15 18:56:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google