GlitchBench: Can large multimodal models detect video game glitches?

要約

大規模マルチモーダル モデル (LMM) は、視覚入力などの複数の入力モダリティを統合するために、大規模言語モデル (LLM) から進化しました。
この統合により、視覚的な理解と推論を必要とするタスクに対する LLM の能力が強化されます。
ただし、特に現実世界のタスクに関しては、強化された能力の範囲と限界は完全には理解されていません。
このギャップに対処するために、ビデオ ゲームの品質保証タスクから派生した新しいベンチマークである GlitchBench を導入し、LMM の推論機能をテストおよび評価します。
私たちのベンチマークは、ビデオ ゲームのさまざまな異常で不具合のあるシナリオから厳選されており、異常なイベントを検出して解釈する際の LMM の視覚的および言語的推論能力の両方に挑戦することを目的としています。
複数の最先端の LMM を評価し、GlitchBench がこれらのモデルに新たな課題を提示することを示します。
コードとデータは https://gitchbench.github.io/ から入手できます。

要約(オリジナル)

Large multimodal models (LMMs) have evolved from large language models (LLMs) to integrate multiple input modalities, such as visual inputs. This integration augments the capacity of LLMs for tasks requiring visual comprehension and reasoning. However, the extent and limitations of their enhanced abilities are not fully understood, especially when it comes to real-world tasks. To address this gap, we introduce GlitchBench, a novel benchmark derived from video game quality assurance tasks, to test and evaluate the reasoning capabilities of LMMs. Our benchmark is curated from a variety of unusual and glitched scenarios from video games and aims to challenge both the visual and linguistic reasoning powers of LMMs in detecting and interpreting out-of-the-ordinary events. We evaluate multiple state-of-the-art LMMs, and we show that GlitchBench presents a new challenge for these models. Code and data are available at: https://glitchbench.github.io/

arxiv情報

著者 Mohammad Reza Taesiri,Tianjun Feng,Anh Nguyen,Cor-Paul Bezemer
発行日 2024-03-29 16:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク