GenCeption: Evaluate Multimodal LLMs with Unlabeled Unimodal Data

要約

マルチモーダル大規模言語モデル (MLLM) は通常、高価な注釈付きマルチモーダル ベンチマークを使用して評価されますが、急速に進化する MLLM 評価の要求に遅れることがよくあります。
この論文は、モダリティ間の意味論的一貫性を測定し、MLLM の幻覚傾向を逆評価するために単峰性データのみを必要とする、新しいアノテーション不要の評価方法である GenCeption の概要と検証を行います。
このアプローチにより、コストのかかるデータ注釈の必要性がなくなり、トレーニング データの汚染のリスクが最小限に抑えられ、ベンチマークの飽和が遅くなり、新たな能力の錯覚が回避されます。
DrawCeption ゲームからインスピレーションを得た GenCeption は、非テキストのサンプルから始まり、反復的な記述と生成のステップを経て進みます。
反復にわたるセマンティック ドリフトは、GC@T メトリックを使用して定量化されます。
GenCeption メソッドに基づいて、Vision LLM (VLLM) を評価するための MMECeption ベンチマークを確立し、いくつかの一般的な VLLM とヒューマン アノテーターのパフォーマンスを比較します。
私たちの実証結果は GenCeption の有効性を検証し、確立された VLLM ベンチマークとの強い相関関係を示しています。
VLLM は依然として人間のパフォーマンスに大きく劣っており、特にテキストを多用するタスクに苦労しています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are typically assessed using expensive annotated multimodal benchmarks, which often lag behind the rapidly evolving demands of MLLM evaluation. This paper outlines and validates GenCeption, a novel, annotation-free evaluation method that requires only unimodal data to measure inter-modality semantic coherence and inversely assesses MLLMs’ tendency to hallucinate. This approach eliminates the need for costly data annotation, minimizes the risk of training data contamination, results in slower benchmark saturation, and avoids the illusion of emerging abilities. Inspired by the DrawCeption game, GenCeption begins with a non-textual sample and proceeds through iterative description and generation steps. The semantic drift across iterations is quantified using the GC@T metric. Based on the GenCeption method, we establish the MMECeption benchmark for evaluating Vision LLMs (VLLMs), and compare performance of several popular VLLMs and human annotators. Our empirical results validate GenCeption’s effectiveness, demonstrating strong correlations with established VLLM benchmarks. VLLMs still significantly lack behind human performance and struggle especially with text-intensive tasks.

arxiv情報

著者 Lele Cao,Valentin Buchner,Zineb Senane,Fangkai Yang
発行日 2024-07-23 13:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.4 パーマリンク