要約
ビジョンおよび言語モデル (VLM) は、現在、マルチモーダル タスクにおいて最も一般的にパフォーマンスの高いアーキテクチャです。
予測に加えて、事後設定または CoT 設定で説明を作成することもできます。
ただし、予測や説明を生成する際にビジョンとテキストのモダリティをどの程度使用するかは明らかではありません。
この研究では、VLM が答えを提供するときとは対照的に、説明を生成するときにモダリティに異なる方法で依存するかどうかを調査します。
また、既存のテストと対策を VLM デコーダに拡張することにより、事後説明設定と CoT 説明設定の両方で VLM デコーダの自己一貫性を評価します。
VLM は LLM よりも自己一貫性が低いことがわかりました。
VL デコーダにおけるテキストの寄与は、測定されたすべてのタスクにわたる画像の寄与よりもはるかに大きくなります。
そして、画像の寄与は、回答生成よりも説明生成の方が大幅に大きくなります。
この差は、事後説明設定と比較して CoT ではさらに大きくなります。
また、これまで VL エンコーダーのみに焦点を当てていた VALSE ベンチマークで、最先端の VL デコーダーの最新のベンチマークも提供します。
VL デコーダは、VALSE によってテストされたほとんどの現象に対して依然として苦戦していることがわかりました。
要約(オリジナル)
Vision and language models (VLMs) are currently the most generally performant architectures on multimodal tasks. Next to their predictions, they can also produce explanations, either in post-hoc or CoT settings. However, it is not clear how much they use the vision and text modalities when generating predictions or explanations. In this work, we investigate if VLMs rely on modalities differently when generating explanations as opposed to when they provide answers. We also evaluate the self-consistency of VLM decoders in both post-hoc and CoT explanation settings, by extending existing tests and measures to VLM decoders. We find that VLMs are less self-consistent than LLMs. The text contributions in VL decoders are much larger than the image contributions across all measured tasks. And the contributions of the image are significantly larger for explanation generations than for answer generation. This difference is even larger in CoT compared to the post-hoc explanation setting. We also provide an up-to-date benchmarking of state-of-the-art VL decoders on the VALSE benchmark, which to date focused only on VL encoders. We find that VL decoders are still struggling with most phenomena tested by VALSE.
arxiv情報
著者 | Letitia Parcalabescu,Anette Frank |
発行日 | 2024-04-29 11:52:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google