OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

要約

オープンソースのマルチモーダル大手言語モデル(MLLM)の最近の進歩は、主に基礎能力の強化に焦点を当てており、人間の好みの調整に大きなギャップを残しています。
このペーパーでは、Omnialign-Vを紹介します。これは、多様な画像、複雑な質問、MLLMの人間の好みとの整合を改善するための多様な画像、複雑な質問、さまざまな応答形式を特徴とする200K高品質のトレーニングサンプルの包括的なデータセットです。
また、MM-Alignbenchは、MLLMのアライメントを人間の価値と評価するために特別に設計された人間が解釈したベンチマークを提示します。
実験結果は、監視された微調整(SFT)または直接優先最適化(DPO)を使用して、Omnialign-Vを使用したMLLMSを獲得することにより、標準のVQAベンチマークのパフォーマンスを維持または強化し、基本的な機能を維持しながら、人間の優先順位のアライメントを大幅に向上させることを示しています。
データセット、ベンチマーク、コード、およびチェックポイントは、https://github.com/phoenixz810/omnialign-vでリリースされています。

要約(オリジナル)

Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs’ alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs’ alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.

arxiv情報

著者 Xiangyu Zhao,Shengyuan Ding,Zicheng Zhang,Haian Huang,Maosong Cao,Weiyun Wang,Jiaqi Wang,Xinyu Fang,Wenhai Wang,Guangtao Zhai,Haodong Duan,Hua Yang,Kai Chen
発行日 2025-02-25 18:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク