Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning

要約

画像の美的評価 (IAA) は、画像の美的価値を分析および評価し、そのハイライトと改善すべき領域を特定することを伴う重要かつ複雑なタスクです。
IAA の従来の手法は、多くの場合、単一の美的タスクに集中しており、ラベル付けされたデータセットが不十分であるため、深い美的理解を損なっています。
マルチモーダル大規模言語モデル (MLLM) の適用を通じてこの課題を克服しようとする努力にもかかわらず、そのようなモデルは IAA の目的で開発されていないままです。
これに対処するために、私たちは微妙な美的洞察を可能にする包括的な美的 MLLM を提案します。
私たちのアプローチの中心となるのは、革新的なマルチスケールのテキストガイドによる自己教師あり学習手法です。
この技術は、マルチスケール フィーチャ アラインメント モジュールを特徴としており、自己監視型の方法で豊富なラベルなしデータを活用して、構造的および機能的に美的能力を向上させます。
経験的証拠は、広範な命令チューニングを伴うこのモデルが、美的スコアリング、美的コメント、パーソナライズされた画像の美的評価を含む複数のタスクにわたって新しい最先端のベンチマークを設定することを示しています。
注目すべきことに、美的提案という新たなタスクにおいてゼロショット学習機能も実証しています。
さらに、パーソナライズされた画像の美的評価のために、コンテキスト内学習の可能性を活用し、その固有の利点を紹介します。

要約(オリジナル)

Image Aesthetic Assessment (IAA) is a vital and intricate task that entails analyzing and assessing an image’s aesthetic values, and identifying its highlights and areas for improvement. Traditional methods of IAA often concentrate on a single aesthetic task and suffer from inadequate labeled datasets, thus impairing in-depth aesthetic comprehension. Despite efforts to overcome this challenge through the application of Multi-modal Large Language Models (MLLMs), such models remain underdeveloped for IAA purposes. To address this, we propose a comprehensive aesthetic MLLM capable of nuanced aesthetic insight. Central to our approach is an innovative multi-scale text-guided self-supervised learning technique. This technique features a multi-scale feature alignment module and capitalizes on a wealth of unlabeled data in a self-supervised manner to structurally and functionally enhance aesthetic ability. The empirical evidence indicates that accompanied with extensive instruct-tuning, our model sets new state-of-the-art benchmarks across multiple tasks, including aesthetic scoring, aesthetic commenting, and personalized image aesthetic assessment. Remarkably, it also demonstrates zero-shot learning capabilities in the emerging task of aesthetic suggesting. Furthermore, for personalized image aesthetic assessment, we harness the potential of in-context learning and showcase its inherent advantages.

arxiv情報

著者 Yuti Liu,Shice Liu,Junyuan Gao,Pengtao Jiang,Hao Zhang,Jinwei Chen,Bo Li
発行日 2024-12-16 16:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク