Multi-modal Learnable Queries for Image Aesthetics Assessment

要約

画像美学評価 (IAA) は、ソーシャル メディアの普及に伴い幅広い関心を集めています。
この問題は主観的で曖昧な性質があるため、困難です。
画像のみから美的特徴を直接抽出するのではなく、画像に関連付けられたユーザーのコメントは、IAA に役立つ補完的な知識を提供する可能性があります。
既存の大規模な事前トレーニング済みモデルは、高品質で転送可能な視覚的およびテキストの特徴を抽出する強力な機能を実証しているため、学習可能なクエリは、事前トレーニングされた視覚的特徴から有用な特徴を抽出するのに効果的であることが示されています。
したがって、この論文では、マルチモーダルの学習可能なクエリを利用して、マルチモーダルの事前トレーニングされた特徴から美学関連の特徴を抽出する MMLQ を提案します。
広範な実験結果は、MMLQ がマルチモーダル IAA で新しい最先端のパフォーマンスを達成し、SRCC と PLCC に関して以前の方法をそれぞれ 7.7% と 8.3% 上回っていることを示しています。

要約(オリジナル)

Image aesthetics assessment (IAA) is attracting wide interest with the prevalence of social media. The problem is challenging due to its subjective and ambiguous nature. Instead of directly extracting aesthetic features solely from the image, user comments associated with an image could potentially provide complementary knowledge that is useful for IAA. With existing large-scale pre-trained models demonstrating strong capabilities in extracting high-quality transferable visual and textual features, learnable queries are shown to be effective in extracting useful features from the pre-trained visual features. Therefore, in this paper, we propose MMLQ, which utilizes multi-modal learnable queries to extract aesthetics-related features from multi-modal pre-trained features. Extensive experimental results demonstrate that MMLQ achieves new state-of-the-art performance on multi-modal IAA, beating previous methods by 7.7% and 8.3% in terms of SRCC and PLCC, respectively.

arxiv情報

著者 Zhiwei Xiong,Yunfan Zhang,Zhiqi Shen,Peiran Ren,Han Yu
発行日 2024-05-02 14:31:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク