Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning

要約

大規模言語モデル (LLM) の成功に続き、Flamingo モデルやその後の競合モデルなどの大規模マルチモーダル モデル (LMM) が、ジェネラリスト エージェントへの自然なステップとして台頭し始めています。
ただし、最近の LMM を操作すると、現在の評価ベンチマークではほとんど把握できない大きな制限が明らかになります。
実際、タスクのパフォーマンス (VQA の精度など) だけでは、タスクの実際の能力、限界、およびそのようなモデルが人間の期待にどの程度適合しているかを理解するための十分な手がかりは得られません。
これらの欠陥についての理解をさらに深めるために、現在の評価パラダイムから逸脱し、(1) 最近の 10 個のオープンソース LMM を 3B から 80B までのパラメーター スケールで 5 つの異なる軸で評価します。
幻覚、棄権、構成性、説明可能性、指示に従うこと。
これらの軸に関する私たちの評価により、LMM の大きな欠陥が明らかになりました。
これらのモデルを調整するための現在の頼りになるソリューションは、命令チューニングや RLHF などのトレーニングに基づいていますが、私たちはむしろ、(2) トレーニング不要のインコンテキスト学習 (ICL) をソリューションとして探索し、それがこれらのモデルにどのような影響を与えるかを研究します。
制限。
私たちの ICL 研究に基づいて、(3) ICL をさらに推進し、次のような新しいマルチモーダル ICL バリアントを提案します。
マルチタスク ICL、後知恵チェーン ICL、および自己修正 ICL。
我々の調査結果は以下の通りである。
(1) LMM には成功にもかかわらず、スケーリングだけでは解決できない欠陥があります。
(2) LMM の欠陥に対する ICL の影響は微妙です。
ICL は、説明可能性、回答棄権性の向上に有効であるにもかかわらず、指導への追従性をわずかに改善するだけで、構成力は改善せず、実際には幻覚を増幅することさえあります。
(3) 提案された ICL の亜種は、これらの欠陥の一部に効率的に対処するための事後アプローチとして有望です。
コードは、https://github.com/mshukor/EvALign-ICL から入手できます。

要約(オリジナル)

Following the success of Large Language Models (LLMs), Large Multimodal Models (LMMs), such as the Flamingo model and its subsequent competitors, have started to emerge as natural steps towards generalist agents. However, interacting with recent LMMs reveals major limitations that are hardly captured by the current evaluation benchmarks. Indeed, task performances (e.g., VQA accuracy) alone do not provide enough clues to understand their real capabilities, limitations, and to which extent such models are aligned to human expectations. To refine our understanding of those flaws, we deviate from the current evaluation paradigm, and (1) evaluate 10 recent open-source LMMs from 3B up to 80B parameter scale, on 5 different axes; hallucinations, abstention, compositionality, explainability and instruction following. Our evaluation on these axes reveals major flaws in LMMs. While the current go-to solution to align these models is based on training, such as instruction tuning or RLHF, we rather (2) explore the training-free in-context learning (ICL) as a solution, and study how it affects these limitations. Based on our ICL study, (3) we push ICL further and propose new multimodal ICL variants such as; Multitask-ICL, Chain-of-Hindsight-ICL, and Self-Correcting-ICL. Our findings are as follows. (1) Despite their success, LMMs have flaws that remain unsolved with scaling alone. (2) The effect of ICL on LMMs flaws is nuanced; despite its effectiveness for improved explainability, answer abstention, ICL only slightly improves instruction following, does not improve compositional abilities, and actually even amplifies hallucinations. (3) The proposed ICL variants are promising as post-hoc approaches to efficiently tackle some of those flaws. The code is available here: https://github.com/mshukor/EvALign-ICL.

arxiv情報

著者 Mustafa Shukor,Alexandre Rame,Corentin Dancette,Matthieu Cord
発行日 2024-01-22 18:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク