要約
我々は、大規模言語モデルからの自然言語フィードバック (NLF) を革新的に利用して、最先端の LVLM の 2 つの重要な制限に対処することでその調整と対話を強化する大規模ビジョン言語モデル (LVLM) である DRESS を紹介します。
まず、従来の LVLM は一般に、人間の好みとの整合性を高めるために命令微調整ステージのみに依存していました。
追加のフィードバックを組み込んでいない場合でも、役に立たない、幻覚のような、または有害な反応を生成する傾向があります。
第 2 に、視覚的指示調整データは一般にマルチターン対話形式で構造化されていますが、連続する会話ターン間の接続と依存関係は弱いです。
これにより、効果的なマルチターン インタラクションの能力が低下します。
これらに取り組むために、私たちは NLF を 2 つの主要なタイプ (批評と洗練) に新たに分類することを提案します。
批評 NLF は、応答の長所と短所を特定し、LVLM を人間の好みに合わせるために使用されます。
改良 NLF は、改善のための具体的な提案を提供し、LVLM のインタラクション能力を向上させるために採用されています。これは、マルチターン インタラクションにフィードバックを組み込むことで応答を洗練する LVLM の能力に焦点を当てています。
NLF の微分不可能な性質に対処するために、トレーニング用の条件付き強化学習を一般化します。
私たちの実験結果は、DRESS が SOTA LVML と比較して、より有益 (9.76%)、誠実 (11.52%)、無害 (21.03%) の応答を生成し、マルチターン インタラクション中にフィードバックからより効果的に学習できることを示しています。
要約(オリジナル)
We present DRESS, a large vision language model (LVLM) that innovatively exploits Natural Language feedback (NLF) from Large Language Models to enhance its alignment and interactions by addressing two key limitations in the state-of-the-art LVLMs. First, prior LVLMs generally rely only on the instruction finetuning stage to enhance alignment with human preferences. Without incorporating extra feedback, they are still prone to generate unhelpful, hallucinated, or harmful responses. Second, while the visual instruction tuning data is generally structured in a multi-turn dialogue format, the connections and dependencies among consecutive conversational turns are weak. This reduces the capacity for effective multi-turn interactions. To tackle these, we propose a novel categorization of the NLF into two key types: critique and refinement. The critique NLF identifies the strengths and weaknesses of the responses and is used to align the LVLMs with human preferences. The refinement NLF offers concrete suggestions for improvement and is adopted to improve the interaction ability of the LVLMs– which focuses on LVLMs’ ability to refine responses by incorporating feedback in multi-turn interactions. To address the non-differentiable nature of NLF, we generalize conditional reinforcement learning for training. Our experimental results demonstrate that DRESS can generate more helpful (9.76%), honest (11.52%), and harmless (21.03%) responses, and more effectively learn from feedback during multi-turn interactions compared to SOTA LVMLs.
arxiv情報
著者 | Yangyi Chen,Karan Sikka,Michael Cogswell,Heng Ji,Ajay Divakaran |
発行日 | 2024-03-19 17:51:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google