要約
近年、マルチモーダル大規模言語モデル(MLLM)が動画像理解分野で大きな進歩を遂げている。しかし、VideoLLMの幻覚問題は、画像と比較してあまり研究されていない。このギャップを緩和するために、我々はEventHallusionを提案する。EventHallusionは、VideoLLMのイベントに対する幻覚を評価することに焦点を当てた新しいベンチマークであり、ビデオ解析の核心である。幻覚帰属の観点から、我々のEventHallusionベンチマークは、VideoLLMの言語プライアや視覚言語バイアスに対する感受性を評価するように設計されている。一方、VideoLLMの幻覚問題に取り組むために、Temporal Contrastive Decoding (TCD)と呼ばれるシンプルで効果的な手法を提案する。提案するTCD法は、時間的手がかりが破壊された元のビデオと修正されたバージョンを比較することにより、デコーディングの段階でモデルの事前分布への偏りを修正する。提案したEventHallusionベンチマークを用いて、8つのオープンソースと2つのクローズドソースのVideoLLMを総合的に評価した結果、オープンソースのモデルは幻覚の問題に大きく悩まされるのに対し、クローズドソースのモデルは著しく性能が良いことがわかった。さらに、オープンソースのVideoLLMに提案するTCDアプローチを搭載することで、EventHallusionベンチマークのほとんどのメトリクスで明らかな性能向上が達成された。我々のコードとベンチマークデータはhttps://github.com/Stevetich/EventHallusion。
要約(オリジナル)
Recently, Multimodal Large Language Models (MLLMs) have made significant progress in the video comprehension field. Despite remarkable content reasoning and instruction following capabilities they demonstrated, the hallucination problem of these VideoLLMs is less explored compared with its counterpart in the image domain. To mitigate this gap, we propose EventHallusion, a novel benchmark that focuses on assessing the VideoLLMs’ hallucination toward event, the crux of video analysis. From a hallucination attribution perspective, our EventHallusion benchmark is curated to assess a VideoLLM’s susceptibility toward language priors and vision-language biases. On the other hand, we also propose a simple yet effective method, called Temporal Contrastive Decoding (TCD), to tackle the hallucination problems of VideoLLMs. The proposed TCD method rectifies the model’s bias toward its priors during the decoding stage by comparing the original video with a modified version, in which temporal cues are disrupted. Through comprehensive evaluation of eight open-source and two closed-source VideoLLMs on the proposed EventHallusion benchmark, we observe that the open-source models suffer significantly from hallucination problems, whereas the closed-source ones perform markedly better. By further equipping open-source VideoLLMs with the proposed TCD approach, evident performance improvements are achieved across most metrics in the EventHallusion benchmark. Our codes and benchmark data are available at https://github.com/Stevetich/EventHallusion.
arxiv情報
著者 | Jiacheng Zhang,Yang Jiao,Shaoxiang Chen,Na Zhao,Jingjing Chen |
発行日 | 2025-01-03 10:57:17+00:00 |
arxivサイト | arxiv_id(pdf) |