AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception

要約

画像美的知覚 (IAP) の高度に抽象的な性質は、現在のマルチモーダル大規模言語モデル (MLLM) にとって大きな課題となっています。
人間による注釈が付けられたマルチモダリティの美的データの欠如はこのジレンマをさらに悪化させ、その結果、MLLM は美的認識能力を満たせなくなります。
上記の課題に対処するために、まず、包括的に注釈が付けられた Aesthetic Multi-Modality 命令チューニング (AesMMIT) データセットを導入します。これは、マルチモダリティの美学基礎モデルを構築するための基礎として機能します。
具体的には、MLLM を人間の美的認識と一致させるために、21,904 枚の多様なソース画像と 88,000 件の人間の自然言語フィードバックを含む、コーパスが豊富な美的批評データベースを構築します。これらのフィードバックは、粗い美的評価から細かい評価までの進歩的な質問を通じて収集されます。
美的描写。
MLLM が多様なクエリを確実に処理できるようにするために、さらに GPT に美的批評を改良し、より強力な美的機能を有効にするための 409K の複数型の命令で構成される大規模な美的命令調整データセット、つまり AesMMIT を組み立てるよう促します。
AesMMIT データベースに基づいて、オープンソースの一般基礎モデルを微調整し、AesExpert と呼ばれるマルチモダリティの Aesthetic Expert モデルを実現します。
広範な実験により、提案された AesExpert モデルが、最先端の GPT-4V や Gemini-Pro-Vision などの最先端の MLLM よりも大幅に優れた審美的知覚パフォーマンスを実現することが実証されました。
ソースデータは https://github.com/yipoh/AesExpert で入手できます。

要約(オリジナル)

The highly abstract nature of image aesthetics perception (IAP) poses significant challenge for current multimodal large language models (MLLMs). The lack of human-annotated multi-modality aesthetic data further exacerbates this dilemma, resulting in MLLMs falling short of aesthetics perception capabilities. To address the above challenge, we first introduce a comprehensively annotated Aesthetic Multi-Modality Instruction Tuning (AesMMIT) dataset, which serves as the footstone for building multi-modality aesthetics foundation models. Specifically, to align MLLMs with human aesthetics perception, we construct a corpus-rich aesthetic critique database with 21,904 diverse-sourced images and 88K human natural language feedbacks, which are collected via progressive questions, ranging from coarse-grained aesthetic grades to fine-grained aesthetic descriptions. To ensure that MLLMs can handle diverse queries, we further prompt GPT to refine the aesthetic critiques and assemble the large-scale aesthetic instruction tuning dataset, i.e. AesMMIT, which consists of 409K multi-typed instructions to activate stronger aesthetic capabilities. Based on the AesMMIT database, we fine-tune the open-sourced general foundation models, achieving multi-modality Aesthetic Expert models, dubbed AesExpert. Extensive experiments demonstrate that the proposed AesExpert models deliver significantly better aesthetic perception performances than the state-of-the-art MLLMs, including the most advanced GPT-4V and Gemini-Pro-Vision. Source data will be available at https://github.com/yipoh/AesExpert.

arxiv情報

著者 Yipo Huang,Xiangfei Sheng,Zhichao Yang,Quan Yuan,Zhichao Duan,Pengfei Chen,Leida Li,Weisi Lin,Guangming Shi
発行日 2024-04-15 09:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク