要約
マルチモーダル大規模言語モデル (MLLM) は、大規模言語モデル (LLM) に基づいてトレーニングされ、マルチモーダル入力を理解してテキスト応答を生成する機能が強化されています。
MLLM はマルチモーダルなタスクでは優れていますが、純粋な NLP 能力は過小評価され、テストされていないことがよくあります。
この研究では、私たちは箱から出して、MLLM の興味深い特徴を明らかにします。私たちの予備的な結果は、LLM を MLLM に移行するための一般的な戦略である視覚的命令チューニングが、予想外かつ興味深いことに、モデルが真実性と倫理的整合性の向上の両方を達成するのに役立つことを示唆しています。
純粋な NLP コンテキスト。
たとえば、視覚的な指示で調整された LLaMA2 7B モデルは、TruthfulQA-mc および Ethics ベンチマークで、100 万を超える人間による注釈で微調整された LLaMA2 チャット 7B モデルのパフォーマンスを上回っています。
さらなる分析により、改善された位置合わせは、ビジュアルテキストデータに固有の優れた命令品質に起因する可能性があることが明らかになりました。
github.com/UCSC-VLAA/Sight-Beyond-Text でコードをリリースするにあたり、私たちはビジュアルとテキストの相乗効果の本質的な価値、そしてより広い範囲ではアライメント研究におけるマルチモーダルな相互作用のさらなる探究を促進したいと考えています。
要約(オリジナル)
Multi-modal large language models (MLLMs) are trained based on large language models (LLM), with an enhanced capability to comprehend multi-modal inputs and generate textual responses. While they excel in multi-modal tasks, the pure NLP abilities of MLLMs are often underestimated and left untested. In this study, we get out of the box and unveil an intriguing characteristic of MLLMs — our preliminary results suggest that visual instruction tuning, a prevailing strategy for transitioning LLMs into MLLMs, unexpectedly and interestingly helps models attain both improved truthfulness and ethical alignment in the pure NLP context. For example, a visual-instruction-tuned LLaMA2 7B model surpasses the performance of the LLaMA2-chat 7B model, fine-tuned with over one million human annotations, on TruthfulQA-mc and Ethics benchmarks. Further analysis reveals that the improved alignment can be attributed to the superior instruction quality inherent to visual-text data. In releasing our code at github.com/UCSC-VLAA/Sight-Beyond-Text, we aspire to foster further exploration into the intrinsic value of visual-text synergies and, in a broader scope, multi-modal interactions in alignment research.
arxiv情報
著者 | Haoqin Tu,Bingchen Zhao,Chen Wei,Cihang Xie |
発行日 | 2023-09-13 17:57:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google