Assessment of Multimodal Large Language Models in Alignment with Human Values

要約

大規模言語モデル (LLM) は、役に立つ、正直、無害である (hh) という原則によって定義される、人間の価値観に沿った多用途のアシスタントとして機能することを目指しています。
しかし、マルチモーダル大規模言語モデル (MLLM) に関しては、知覚および推論タスクにおける賞賛に値するパフォーマンスにもかかわらず、視覚世界における hm 次元の定義の複雑さと関連データの収集の難しさを考慮すると、人間の価値観との整合性はほとんど解明されていないままです。
現実世界の状況を正確に反映しています。
このギャップに対処するために、人間の期待との整合性を評価するための包括的評価データセットおよび戦略である Ch3Ef を導入します。
Ch3Ef データセットには、人間が注釈を付けた 1002 個のデータ サンプルが含まれており、hm 原理に基づいて 12 のドメインと 46 のタスクをカバーしています。
また、さまざまなシナリオや視点にわたる評価をサポートする統一的な評価戦略も提示します。
評価結果に基づいて、MLLM の機能、制限、評価レベル間の動的な関係についての理解を深め、この分野の将来の進歩に導く 10 を超える重要な調査結果を要約します。

要約(オリジナル)

Large Language Models (LLMs) aim to serve as versatile assistants aligned with human values, as defined by the principles of being helpful, honest, and harmless (hhh). However, in terms of Multimodal Large Language Models (MLLMs), despite their commendable performance in perception and reasoning tasks, their alignment with human values remains largely unexplored, given the complexity of defining hhh dimensions in the visual world and the difficulty in collecting relevant data that accurately mirrors real-world situations. To address this gap, we introduce Ch3Ef, a Compreh3ensive Evaluation dataset and strategy for assessing alignment with human expectations. Ch3Ef dataset contains 1002 human-annotated data samples, covering 12 domains and 46 tasks based on the hhh principle. We also present a unified evaluation strategy supporting assessment across various scenarios and different perspectives. Based on the evaluation results, we summarize over 10 key findings that deepen the understanding of MLLM capabilities, limitations, and the dynamic relationships between evaluation levels, guiding future advancements in the field.

arxiv情報

著者 Zhelun Shi,Zhipin Wang,Hongxing Fan,Zaibin Zhang,Lijun Li,Yongting Zhang,Zhenfei Yin,Lu Sheng,Yu Qiao,Jing Shao
発行日 2024-03-26 16:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク