Image Aesthetics Assessment via Learnable Queries

要約

画像美学評価 (IAA) は、画像の美学を評価することを目的としています。
画像の内容に応じて、その美しさを評価するにはさまざまな基準を選択する必要があります。
既存の作品は、コンテンツの知識に基づいて事前にトレーニングされた視覚バックボーンを利用して、画像の美学を学習します。
ただし、これらのバックボーンのトレーニングには時間がかかり、注意力が分散してしまいます。
視覚と言語の調整における学習可能なクエリに触発されて、学習可能なクエリによる画像美学評価 (IAA-LQ) アプローチを提案します。
学習可能なクエリを適応させて、フリーズ画像エンコーダーから取得した事前トレーニングされた画像特徴から美的特徴を抽出します。
実世界のデータに関する広範な実験により、IAA-LQ の利点が実証され、SRCC と PLCC に関して、最先端の最良の方法をそれぞれ 2.2% と 2.1% 上回りました。

要約(オリジナル)

Image aesthetics assessment (IAA) aims to estimate the aesthetics of images. Depending on the content of an image, diverse criteria need to be selected to assess its aesthetics. Existing works utilize pre-trained vision backbones based on content knowledge to learn image aesthetics. However, training those backbones is time-consuming and suffers from attention dispersion. Inspired by learnable queries in vision-language alignment, we propose the Image Aesthetics Assessment via Learnable Queries (IAA-LQ) approach. It adapts learnable queries to extract aesthetic features from pre-trained image features obtained from a frozen image encoder. Extensive experiments on real-world data demonstrate the advantages of IAA-LQ, beating the best state-of-the-art method by 2.2% and 2.1% in terms of SRCC and PLCC, respectively.

arxiv情報

著者 Zhiwei Xiong,Yunfan Zhang,Zhiqi Shen,Peiran Ren,Han Yu
発行日 2023-09-06 09:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク