CHARTOM: A Visual Theory-of-Mind Benchmark for Multimodal Large Language Models

要約

マルチモーダル大規模言語モデルの視覚理論的ベンチマークである CHARTOM を紹介します。
CHARTOM は、グラフを視覚化するために特別に設計されたデータで構成されています。
チャートが与えられた場合、言語モデルはそのチャートを正しく理解するだけでなく (FACT の質問)、そのチャートが人間の読者に誤解を招くかどうか (MIND の質問) も判断する必要があります。
どちらの質問も社会的に大きなメリットがあります。
人間のパフォーマンスの調整を含む CHARTOM ベンチマークの構築について詳しく説明します。

要約(オリジナル)

We introduce CHARTOM, a visual theory-of-mind benchmark for multimodal large language models. CHARTOM consists of specially designed data visualizing charts. Given a chart, a language model needs to not only correctly comprehend the chart (the FACT question) but also judge if the chart will be misleading to a human reader (the MIND question). Both questions have significant societal benefits. We detail the construction of the CHARTOM benchmark including its calibration on human performance.

arxiv情報

著者 Shubham Bharti,Shiyun Cheng,Jihyun Rho,Martina Rao,Xiaojin Zhu
発行日 2024-08-26 17:04:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク