要約
マルチモーダル大規模言語モデルの視覚理論的ベンチマークである CHARTOM を紹介します。
CHARTOM は、グラフを視覚化するために特別に設計されたデータで構成されています。
チャートが与えられた場合、言語モデルはそのチャートを正しく理解するだけでなく (FACT の質問)、そのチャートが人間の読者に誤解を招くかどうか (MIND の質問) も判断する必要があります。
どちらの質問も社会的に大きなメリットがあります。
人間のパフォーマンスの調整を含む CHARTOM ベンチマークの構築について詳しく説明します。
要約(オリジナル)
We introduce CHARTOM, a visual theory-of-mind benchmark for multimodal large language models. CHARTOM consists of specially designed data visualizing charts. Given a chart, a language model needs to not only correctly comprehend the chart (the FACT question) but also judge if the chart will be misleading to a human reader (the MIND question). Both questions have significant societal benefits. We detail the construction of the CHARTOM benchmark including its calibration on human performance.
arxiv情報
著者 | Shubham Bharti,Shiyun Cheng,Jihyun Rho,Martina Rao,Xiaojin Zhu |
発行日 | 2024-08-26 17:04:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google