要約
この技術レポートは、一般的な破損にさらされた場合の出力の自己一貫性を特に調査することにより、大規模マルチモーダル モデル (LMM) の評価における欠陥を埋めることを目的としています。
私たちは、テキストから画像、画像からテキスト、テキストから音声、音声からテキストという 4 つの重要な生成タスクを含む、テキスト、画像、音声間のクロスモーダルな相互作用を調査します。
私たちは、100 以上の人気のある LMM (合計 150 以上のモデル チェックポイント) をカバーする MMCBench という名前の包括的なベンチマークを作成します。
一般的な破損の下での徹底的な評価は、実際の展開にとって重要であり、最先端の LMM の信頼性をより深く理解するのに役立ちます。
ベンチマーク コードは https://github.com/sail-sg/MMCBench で入手できます。
要約(オリジナル)
This technical report aims to fill a deficiency in the assessment of large multimodal models (LMMs) by specifically examining the self-consistency of their outputs when subjected to common corruptions. We investigate the cross-modal interactions between text, image, and speech, encompassing four essential generation tasks: text-to-image, image-to-text, text-to-speech, and speech-to-text. We create a comprehensive benchmark, named MMCBench, that covers more than 100 popular LMMs (totally over 150 model checkpoints). A thorough evaluation under common corruptions is critical for practical deployment and facilitates a better understanding of the reliability of cutting-edge LMMs. The benchmarking code is available at https://github.com/sail-sg/MMCBench
arxiv情報
著者 | Jiawei Zhang,Tianyu Pang,Chao Du,Yi Ren,Bo Li,Min Lin |
発行日 | 2024-01-22 13:33:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google