要約
マルチモーダル大規模言語モデル (MLLM) はさまざまなタスクにわたって優れた機能を備えていますが、依然として信頼性に関する重大な課題に直面しています。
しかし、信頼できる MLLM の評価に関する現在の文献は依然として限られており、将来の改善に向けた徹底的な洞察を提供するための総合的な評価が不足しています。
この取り組みでは、真実性、安全性、堅牢性、公平性、プライバシーという 5 つの主要な側面にわたる MLLM の信頼性に関する初の包括的かつ統一されたベンチマークである MultiTrust を確立します。
私たちのベンチマークは、マルチモーダルなリスクとクロスモーダルな影響の両方に対処する厳格な評価戦略を採用しており、自己キュレートされたデータセットを使用した 32 の多様なタスクを網羅しています。
21 の最新の MLLM を使った広範な実験により、これまで調査されていなかった信頼性の問題とリスクが明らかになり、マルチモダリティによってもたらされる複雑さが強調され、信頼性を高めるための高度な方法論の必要性が強調されています。
たとえば、典型的な独自モデルは、依然として視覚的に混乱を招く画像の認識に苦労しており、マルチモーダルな脱獄や敵対的攻撃に対して脆弱です。
MLLM は、推論で無関係な画像と組み合わせた場合でも、テキストでプライバシーを開示したり、イデオロギー的および文化的偏見を明らかにしたりする傾向があり、マルチモダリティがベース LLM からの内部リスクを増幅させることを示しています。
さらに、この重要な分野での将来の進歩を促進することを目的として、標準化された信頼性調査のためのスケーラブルなツールボックスをリリースします。
コードとリソースは https://multi-trust.github.io/ で公開されています。
要約(オリジナル)
Despite the superior capabilities of Multimodal Large Language Models (MLLMs) across diverse tasks, they still face significant trustworthiness challenges. Yet, current literature on the assessment of trustworthy MLLMs remains limited, lacking a holistic evaluation to offer thorough insights into future improvements. In this work, we establish MultiTrust, the first comprehensive and unified benchmark on the trustworthiness of MLLMs across five primary aspects: truthfulness, safety, robustness, fairness, and privacy. Our benchmark employs a rigorous evaluation strategy that addresses both multimodal risks and cross-modal impacts, encompassing 32 diverse tasks with self-curated datasets. Extensive experiments with 21 modern MLLMs reveal some previously unexplored trustworthiness issues and risks, highlighting the complexities introduced by the multimodality and underscoring the necessity for advanced methodologies to enhance their reliability. For instance, typical proprietary models still struggle with the perception of visually confusing images and are vulnerable to multimodal jailbreaking and adversarial attacks; MLLMs are more inclined to disclose privacy in text and reveal ideological and cultural biases even when paired with irrelevant images in inference, indicating that the multimodality amplifies the internal risks from base LLMs. Additionally, we release a scalable toolbox for standardized trustworthiness research, aiming to facilitate future advancements in this important field. Code and resources are publicly available at: https://multi-trust.github.io/.
arxiv情報
著者 | Yichi Zhang,Yao Huang,Yitong Sun,Chang Liu,Zhe Zhao,Zhengwei Fang,Yifan Wang,Huanran Chen,Xiao Yang,Xingxing Wei,Hang Su,Yinpeng Dong,Jun Zhu |
発行日 | 2024-12-06 14:21:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google