要約
マルチモーダルの大手言語モデルの脆弱性を評価して、誤解を招く視覚化 – 切り捨てられた軸や反転軸などの手法を使用して基礎となるデータを歪め、読者が誤った情報や陰謀の理論をサポートする可能性のある不正確な結論を引き出すように導きます。
私たちの分析は、これらの歪みがマルチモーダルの大手言語モデルにひどく害を及ぼし、疑問の精度をランダムベースラインのレベルに低下させることを示しています。
この脆弱性を緩和するために、6つの推論時間方法を導入して、誤解を招く視覚化に対するMLLMのパフォーマンスを改善しながら、非誤ったものの精度を維持します。
最も効果的なアプローチには、(1)基礎となるデータテーブルの抽出と(2)テキストのみの大規模な言語モデルを使用して、テーブルに基づいて質問に答えることが含まれます。
この方法は、誤解を招く視覚化のパフォーマンスを15.4〜19.6パーセントポイント改善します。
要約(オリジナル)
We assess the vulnerability of multimodal large language models to misleading visualizations – charts that distort the underlying data using techniques such as truncated or inverted axes, leading readers to draw inaccurate conclusions that may support misinformation or conspiracy theories. Our analysis shows that these distortions severely harm multimodal large language models, reducing their question-answering accuracy to the level of the random baseline. To mitigate this vulnerability, we introduce six inference-time methods to improve performance of MLLMs on misleading visualizations while preserving their accuracy on non-misleading ones. The most effective approach involves (1) extracting the underlying data table and (2) using a text-only large language model to answer questions based on the table. This method improves performance on misleading visualizations by 15.4 to 19.6 percentage points.
arxiv情報
著者 | Jonathan Tonglet,Tinne Tuytelaars,Marie-Francine Moens,Iryna Gurevych |
発行日 | 2025-03-05 15:26:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google