Continual SFT Matches Multimodal RLHF with Negative Supervision

要約

マルチモーダル RLHF は通常、視覚言語モデル (VLM) の理解を継続的に向上させるために、教師あり微調整 (SFT) 段階の後に発生します。
この好みの調整段階では、従来の通念が継続的な SFT よりも優れています。
この論文では、マルチモーダル RLHF の固有の価値がその否定的な監視、つまり拒否された応答の論理にあることを観察します。
したがって、我々は、これらの情報を完全に発掘する新しいネガティブ教師あり微調整(nSFT)アプローチを提案します。
当社の nSFT は、RLHF パラダイムにおけるこのネガティブな監視を解きほぐし、VLM を単純な SFT 損失に継続的に調整します。
これは、2 つ (DPO など) または 4 つ (PPO など) の大きな VLM が厳密に必要なマルチモーダル RLHF よりもメモリ効率が高くなります。
nSFT の有効性は、さまざまなデータセット ソース、ベース VLM、および評価指標にわたって、さまざまなマルチモーダル RLHF アプローチと比較することによって厳密に証明されています。
さらに、我々の仮説を裏付けるために、多くのアブレーションが提供されています。
この論文が、大規模なビジョン言語モデルを適切に調整するためのさらなる研究を刺激することを願っています。

要約(オリジナル)

Multimodal RLHF usually happens after supervised finetuning (SFT) stage to continually improve vision-language models’ (VLMs) comprehension. Conventional wisdom holds its superiority over continual SFT during this preference alignment stage. In this paper, we observe that the inherent value of multimodal RLHF lies in its negative supervision, the logit of the rejected responses. We thus propose a novel negative supervised finetuning (nSFT) approach that fully excavates these information resided. Our nSFT disentangles this negative supervision in RLHF paradigm, and continually aligns VLMs with a simple SFT loss. This is more memory efficient than multimodal RLHF where 2 (e.g., DPO) or 4 (e.g., PPO) large VLMs are strictly required. The effectiveness of nSFT is rigorously proved by comparing it with various multimodal RLHF approaches, across different dataset sources, base VLMs and evaluation metrics. Besides, fruitful of ablations are provided to support our hypothesis. We hope this paper will stimulate further research to properly align large vision language models.

arxiv情報

著者 Ke Zhu,Yu Wang,Yanpeng Sun,Qiang Chen,Jiangjiang Liu,Gang Zhang,Jingdong Wang
発行日 2024-11-22 08:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク