FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

要約

大規模なビジョン言語モデル(LVLMS)は、さまざまな視覚言語タスクへの取り組みに習熟度を示しています。
ただし、現在のLVLMは、テキストと画像のモダリティとの間の不整合に苦しんでおり、3種類の幻覚の問題、つまりオブジェクトの存在、オブジェクト属性、およびオブジェクト関係を引き起こします。
この問題に取り組むために、既存の方法は主に補強学習(RL)を利用してLVLMSのモダリティを調整します。
ただし、それらはまだ3つの主要な制限に苦しんでいます。(1)一般的なフィードバックは、応答に含まれる幻覚タイプを示すことはできません。
(2)スパース報酬は、応答全体に対してシーケンスレベルの報酬のみを与えます。
(3)注釈コストは時間がかかり、労働集約的です。
これらの制限を処理するために、主に3つのステップで構成される細かい人工知能フィードバック(FGAIF)を介してLVLMSのモダリティを整列させる革新的な方法を提案します。AIベースのフィードバックコレクション、微細粒度の報酬モデルトレーニング、および微調整された報酬による強化学習。
具体的には、最初にAIツールを利用して、応答の各セグメントの幻覚の種類を予測し、きめ細かいフィードバックのコレクションを取得します。
次に、収集された報酬データに基づいて、3つの専門的な報酬モデルが密集した報酬を生み出すように訓練されています。
最後に、新しい細粒フィードバックモジュールが近位ポリシー最適化(PPO)アルゴリズムに統合されます。
幻覚と一般的なベンチマークで広範な実験が行われ、提案された方法の優れた性能を示しています。
特に、RLベースのAligningメソッドでトレーニングされた以前のモデルと比較して、提案された方法は、パラメーターが少ない場合でも効果的です。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated proficiency in tackling a variety of visual-language tasks. However, current LVLMs suffer from misalignment between text and image modalities which causes three kinds of hallucination problems, i.e., object existence, object attribute, and object relationship. To tackle this issue, existing methods mainly utilize Reinforcement Learning (RL) to align modalities in LVLMs. However, they still suffer from three main limitations: (1) General feedback can not indicate the hallucination type contained in the response; (2) Sparse rewards only give the sequence-level reward for the whole response; and (3)Annotation cost is time-consuming and labor-intensive. To handle these limitations, we propose an innovative method to align modalities in LVLMs through Fine-Grained Artificial Intelligence Feedback (FGAIF), which mainly consists of three steps: AI-based Feedback Collection, Fine-grained Reward Model Training, and Reinforcement Learning with Fine-grained Reward. Specifically, We first utilize AI tools to predict the types of hallucination for each segment in the response and obtain a collection of fine-grained feedback. Then, based on the collected reward data, three specialized reward models are trained to produce dense rewards. Finally, a novel fine-grained feedback module is integrated into the Proximal Policy Optimization (PPO) algorithm. Extensive experiments are conducted on hallucination and general benchmarks, demonstrating the superior performance of our proposed method. Notably, compared with previous models trained with the RL-based aligning method, our proposed method is effective even with fewer parameters.

arxiv情報

著者 Liqiang Jing,Xinya Du
発行日 2025-05-06 15:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク