Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

要約

最新の視覚モデルは、非常に大規模なノイズの多いデータセットでトレーニングされます。
これらのモデルは強力な機能を獲得しますが、視覚的な美しさ、好みのスタイル、責任など、特定の側面で望ましい結果を出力するというユーザーの意図に従わない場合があります。
この論文では、視覚美の領域をターゲットにし、検索システムにおいて視覚モデルを人間の美的基準と一致させることを目的としています。
高度な検索システムは通常、再ランカーまたはフィルターとして美的モデルのカスケードを採用しますが、これらは彩度などの低レベルの特徴に限定されており、文体、文化、または知識のコンテキストが関係する場合にはパフォーマンスが低下します。
大規模言語モデル (LLM) の推論能力を利用して検索クエリを言い換え、美的期待を拡張することで、この欠点を補えることがわかりました。
上記の発見に基づいて、視覚モデルを微調整して、LLM 推論と美的モデルの両方から知識を抽出し、視覚モデルを人間の美的感覚とよりよく一致させる、嗜好ベースの強化学習方法を提案します。
一方、検索システムを評価するために設計された珍しいベンチマークでは、大規模なマルチモダリティ モデル (LMM) を活用して、その強力な能力による美的パフォーマンスを評価します。
美的評価は最も主観的なタスクの 1 つであるため、LMM の堅牢性を検証するために、人間の美的感覚との整合性をベンチマークする HPIR という新しいデータセットをさらに提案します。
実験により、いくつかの指標の下で、私たちの方法が視覚モデルの美的動作を大幅に向上させることが実証されました。
私たちは、提案されたアルゴリズムが視覚モデルを人間の価値観と一致させるための一般的な実践となる可能性があると信じています。

要約(オリジナル)

Modern vision models are trained on very large noisy datasets. While these models acquire strong capabilities, they may not follow the user’s intent to output the desired results in certain aspects, e.g., visual aesthetic, preferred style, and responsibility. In this paper, we target the realm of visual aesthetics and aim to align vision models with human aesthetic standards in a retrieval system. Advanced retrieval systems usually adopt a cascade of aesthetic models as re-rankers or filters, which are limited to low-level features like saturation and perform poorly when stylistic, cultural or knowledge contexts are involved. We find that utilizing the reasoning ability of large language models (LLMs) to rephrase the search query and extend the aesthetic expectations can make up for this shortcoming. Based on the above findings, we propose a preference-based reinforcement learning method that fine-tunes the vision models to distill the knowledge from both LLMs reasoning and the aesthetic models to better align the vision models with human aesthetics. Meanwhile, with rare benchmarks designed for evaluating retrieval systems, we leverage large multi-modality model (LMM) to evaluate the aesthetic performance with their strong abilities. As aesthetic assessment is one of the most subjective tasks, to validate the robustness of LMM, we further propose a novel dataset named HPIR to benchmark the alignment with human aesthetics. Experiments demonstrate that our method significantly enhances the aesthetic behaviors of the vision models, under several metrics. We believe the proposed algorithm can be a general practice for aligning vision models with human values.

arxiv情報

著者 Miaosen Zhang,Yixuan Wei,Zhen Xing,Yifei Ma,Zuxuan Wu,Ji Li,Zheng Zhang,Qi Dai,Chong Luo,Xin Geng,Baining Guo
発行日 2024-06-13 17:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク