要約
大規模言語モデル (LLM) と事前トレーニング済み視覚モデルの最近の進歩により、視覚言語大規模モデル (VLLM) の開発が加速され、視覚モダリティと言語モダリティの間の相互作用が強化されました。
VLLM はさまざまな分野で目覚ましい成功を収めているにもかかわらず、モダリティの調整において課題に直面しており、それが幻覚や安全でないコンテンツの生成などの問題につながる可能性があります。
現在のアライメント手法は、粗いフィードバックや外部データセットに依存することが多く、スケーラビリティとパフォーマンスが制限されています。
この論文では、追加のデータを必要とせずに視覚と言語のアライメントを改善するためのきめ細かい検証器としてモデル自身のビジュアルエンコーダを利用する新しい自己アライメント手法である FiSAO (Fine-Grained Self-Alignment Optimization) を提案します。
FiSAO は、ビジョン エンコーダーからのトークンレベルのフィードバックを活用することで、ビジョンと言語の調整を大幅に改善し、追加データを必要とする従来の設定調整方法をも上回ります。
理論分析と実験検証の両方を通じて、FiSAO が VLLM の不整合問題に効果的に対処していることを実証し、そのようなモデルにトークンレベルの報酬が適用される最初の例を示しました。
要約(オリジナル)
The recent advancements in large language models (LLMs) and pre-trained vision models have accelerated the development of vision-language large models (VLLMs), enhancing the interaction between visual and linguistic modalities. Despite their notable success across various domains, VLLMs face challenges in modality alignment, which can lead to issues like hallucinations and unsafe content generation. Current alignment techniques often rely on coarse feedback and external datasets, limiting scalability and performance. In this paper, we propose FiSAO (Fine-Grained Self-Alignment Optimization), a novel self-alignment method that utilizes the model’s own visual encoder as a fine-grained verifier to improve vision-language alignment without the need for additional data. By leveraging token-level feedback from the vision encoder, FiSAO significantly improves vision-language alignment, even surpassing traditional preference tuning methods that require additional data. Through both theoretical analysis and experimental validation, we demonstrate that FiSAO effectively addresses the misalignment problem in VLLMs, marking the first instance of token-level rewards being applied to such models.
arxiv情報
著者 | Chenhang Cui,An Zhang,Yiyang Zhou,Zhaorun Chen,Gelei Deng,Huaxiu Yao,Tat-Seng Chua |
発行日 | 2024-11-18 11:58:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google