CIEM: Contrastive Instruction Evaluation Method for Better Instruction Tuning

要約

現在、大規模言語モデル (LLM) の成功のおかげで、大規模ビジョン言語モデル (LVLM) の研究が大幅に推進されています。
それにもかかわらず、これらの視覚言語モデル (VLM) は、幻覚という欠点に悩まされています。視覚と言語のモダリティの理解が不十分なため、VLM は、下流のアプリケーションを実行するときに、たとえば、存在しないエンティティにキャプションを付けるなど、誤った知覚情報を生成する可能性があります。
幻覚現象に対処するために、一方では、対照的命令評価法 (CIEM) を導入します。これは、注釈付きの画像とテキストのデータセットを LLM と組み合わせて活用し、事実と対照的な質問と回答のペアを生成する自動パイプラインです。
VLM の幻覚の評価。
一方、CIEMに基づいて、高品質の事実/対照的な質問と回答のペアとそれに対応する正当化を自動的に生成することにより、VLMの幻覚を軽減するためのCIT(Contrastive struction Tuningの略)と呼ばれる新しい命令チューニング手法をさらに提案します。
モデルのチューニング。
CIEM と CIT に関する広範な実験を通じて、既存の VLM に共通して存在する幻覚の問題、現在の命令チューニング データセットが幻覚現象を処理できないこと、CIEM と公開データセットの両方に対する CIT チューニング VLM の優位性を正確に特定しました。

要約(オリジナル)

Nowadays, the research on Large Vision-Language Models (LVLMs) has been significantly promoted thanks to the success of Large Language Models (LLM). Nevertheless, these Vision-Language Models (VLMs) are suffering from the drawback of hallucination — due to insufficient understanding of vision and language modalities, VLMs may generate incorrect perception information when doing downstream applications, for example, captioning a non-existent entity. To address the hallucination phenomenon, on the one hand, we introduce a Contrastive Instruction Evaluation Method (CIEM), which is an automatic pipeline that leverages an annotated image-text dataset coupled with an LLM to generate factual/contrastive question-answer pairs for the evaluation of the hallucination of VLMs. On the other hand, based on CIEM, we further propose a new instruction tuning method called CIT (the abbreviation of Contrastive Instruction Tuning) to alleviate the hallucination of VLMs by automatically producing high-quality factual/contrastive question-answer pairs and corresponding justifications for model tuning. Through extensive experiments on CIEM and CIT, we pinpoint the hallucination issues commonly present in existing VLMs, the disability of the current instruction-tuning dataset to handle the hallucination phenomenon and the superiority of CIT-tuned VLMs over both CIEM and public datasets.

arxiv情報

著者 Hongyu Hu,Jiyuan Zhang,Minyi Zhao,Zhenbang Sun
発行日 2023-09-05 15:06:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク