要約
この論文では、ラージ ビジョン言語モデル (LVLM) の優先度の抽出を検討し、視覚的なコンテキストを固定する有益で忠実な応答を生成する能力を向上させます。
まず、AI アノテーションを利用してビジョン言語フィードバック (VLFeedback) データセットを構築します。
具体的には、応答は 12 の LVLM からサンプリングされたモデルによって生成され、さまざまなデータセットから取得されたマルチモーダル命令に条件付けされます。
GPT-4V を採用して、有用性、視覚的な忠実性、倫理的配慮に関して生成された出力を評価します。
さらに、直接嗜好最適化 (DPO) メソッドを通じて、嗜好の監視が Qwen-VL-Chat に組み込まれます。
結果として得られたモデル Silkie は、知覚能力と認知能力に関して、MME ベンチマークに対してそれぞれ 6.9% と 9.5% の相対的な改善を達成しました。
Silkie はまた、MMHal-Bench ベンチマークで 3.02 という新しい最先端のスコアを設定することにより、幻覚の軽減を実証しています。
さらに分析を進めると、VLFeedback データセットを使用した DPO は主に LVLM のきめ細かい知覚能力と複雑な認知能力を向上させ、人間が注釈を付けた嗜好データセットと比較してより包括的な改善につながることが示されています。
要約(オリジナル)
This paper explores preference distillation for large vision language models (LVLMs), improving their ability to generate helpful and faithful responses anchoring the visual context. We first build a vision-language feedback (VLFeedback) dataset utilizing AI annotation. Specifically, responses are generated by models sampled from 12 LVLMs, conditioned on multi-modal instructions sourced from various datasets. We adopt GPT-4V to assess the generated outputs regarding helpfulness, visual faithfulness, and ethical considerations. Furthermore, the preference supervision is distilled into Qwen-VL-Chat through the direct preference optimization (DPO) method. The resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME benchmark regarding the perception and cognition capabilities, respectively. Silkie also demonstrates reduced hallucination by setting a new state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis shows that DPO with our VLFeedback dataset mainly boosts the fine-grained perception and complex cognition abilities of LVLMs, leading to more comprehensive improvements compared to human-annotated preference datasets.
arxiv情報
著者 | Lei Li,Zhihui Xie,Mukai Li,Shunian Chen,Peiyi Wang,Liang Chen,Yazheng Yang,Benyou Wang,Lingpeng Kong |
発行日 | 2023-12-17 09:44:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google