UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark

要約

高価な専門家による評価に代わるものとして、画像美的評価 (IAA) はコンピューター ビジョンにおける重要なタスクとして際立っています。
ただし、従来の IAA 手法は通常、単一のデータ ソースまたはタスクに制限されており、汎用性と広範な応用が制限されています。
この研究では、人間の美的感覚とよりよく一致させるために、UNIAA-LLaVA という名前のマルチモーダル大規模言語モデル (MLLM) と UNIAA-Bench という名前の包括的なベンチマークを含む、統一マルチモーダル画像美的評価 (UNIAA) フレームワークを提案します。
私たちは、IAA のために視覚認識と言語能力の両方を備えた MLLM を選択し、既存のデータセットを統一された高品質の視覚指示調整データに変換するための低コストのパラダイムを確立し、そこから UNIAA-LLaVA がトレーニングされます。
MLLM の IAA 能力をさらに評価するために、知覚、説明、評価の 3 つの美的レベルで構成される UNIAA ベンチを構築します。
広範な実験により、UNIAA の有効性と合理性が検証されています。
UNIAA-LLaVA は、既存の MLLM と比較して、UNIAA-Bench のすべてのレベルで競争力のあるパフォーマンスを達成します。
具体的には、私たちのモデルは美的知覚において GPT-4V よりも優れたパフォーマンスを示し、ジュニアレベルの人間にさえ近づきます。
MLLM は IAA において大きな可能性を秘めていますが、さらなる改善の余地がまだたくさんあることがわかりました。
UNIAA-LLaVAとUNIAA-Benchを発売します。

要約(オリジナル)

As an alternative to expensive expert evaluation, Image Aesthetic Assessment (IAA) stands out as a crucial task in computer vision. However, traditional IAA methods are typically constrained to a single data source or task, restricting the universality and broader application. In this work, to better align with human aesthetics, we propose a Unified Multi-modal Image Aesthetic Assessment (UNIAA) framework, including a Multi-modal Large Language Model (MLLM) named UNIAA-LLaVA and a comprehensive benchmark named UNIAA-Bench. We choose MLLMs with both visual perception and language ability for IAA and establish a low-cost paradigm for transforming the existing datasets into unified and high-quality visual instruction tuning data, from which the UNIAA-LLaVA is trained. To further evaluate the IAA capability of MLLMs, we construct the UNIAA-Bench, which consists of three aesthetic levels: Perception, Description, and Assessment. Extensive experiments validate the effectiveness and rationality of UNIAA. UNIAA-LLaVA achieves competitive performance on all levels of UNIAA-Bench, compared with existing MLLMs. Specifically, our model performs better than GPT-4V in aesthetic perception and even approaches the junior-level human. We find MLLMs have great potential in IAA, yet there remains plenty of room for further improvement. The UNIAA-LLaVA and UNIAA-Bench will be released.

arxiv情報

著者 Zhaokun Zhou,Qiulin Wang,Bin Lin,Yiwei Su,Rui Chen,Xin Tao,Amin Zheng,Li Yuan,Pengfei Wan,Di Zhang
発行日 2024-04-15 09:47:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク