Flames: Benchmarking Value Alignment of LLMs in Chinese

要約

大規模言語モデル (LLM) がさまざまな地域で広く採用されていることから、人間の価値観との整合性を評価する緊急の必要性が浮き彫りになっています。
しかし、現在のベンチマークは、LLM の安全性の脆弱性を効果的に発見するには至っていません。
多くのモデルがこれらの評価で高いスコアを達成し、「チャートのトップ」を獲得しているにもかかわらず、LLM が人間の価値観とより深く一致し、真の無害性を達成するには、依然として大きなギャップがあります。
この目的を達成するために、この論文は、共通の無害原則と、調和などの中国特有の価値観を統合する独自の道徳的側面の両方を包含する、Flames という名前の価値調整ベンチマークを提案します。
したがって、私たちは、ほとんどが暗黙の悪意を伴う、複雑なシナリオと脱獄方法を組み込んだ敵対的なプロンプトを慎重に設計します。
17 の主流 LLM をプロンプトすることで、モデル応答を取得し、詳細な評価のために厳密に注釈を付けます。
私たちの調査結果は、評価されたすべての LLM が、特に安全性と公平性の観点で、Flames 上で比較的低いパフォーマンスを示していることを示しています。
また、ベンチマークで新しいモデルを効率的に評価するために、複数の次元にわたって LLM をスコアリングできる軽量の指定スコアラーも開発します。
Flames の複雑さは既存のベンチマークをはるかに超えており、現代の LLM に新たな課題をもたらし、LLM のさらなる調整の必要性を浮き彫りにしています。
私たちのベンチマークは https://github.com/AIFlames/Flames で公開されています。

要約(オリジナル)

The widespread adoption of large language models (LLMs) across various regions underscores the urgent need to evaluate their alignment with human values. Current benchmarks, however, fall short of effectively uncovering safety vulnerabilities in LLMs. Despite numerous models achieving high scores and ‘topping the chart’ in these evaluations, there is still a significant gap in LLMs’ deeper alignment with human values and achieving genuine harmlessness. To this end, this paper proposes a value alignment benchmark named Flames, which encompasses both common harmlessness principles and a unique morality dimension that integrates specific Chinese values such as harmony. Accordingly, we carefully design adversarial prompts that incorporate complex scenarios and jailbreaking methods, mostly with implicit malice. By prompting 17 mainstream LLMs, we obtain model responses and rigorously annotate them for detailed evaluation. Our findings indicate that all the evaluated LLMs demonstrate relatively poor performance on Flames, particularly in the safety and fairness dimensions. We also develop a lightweight specified scorer capable of scoring LLMs across multiple dimensions to efficiently evaluate new models on the benchmark. The complexity of Flames has far exceeded existing benchmarks, setting a new challenge for contemporary LLMs and highlighting the need for further alignment of LLMs. Our benchmark is publicly available at https://github.com/AIFlames/Flames.

arxiv情報

著者 Kexin Huang,Xiangyang Liu,Qianyu Guo,Tianxiang Sun,Jiawei Sun,Yaru Wang,Zeyang Zhou,Yixu Wang,Yan Teng,Xipeng Qiu,Yingchun Wang,Dahua Lin
発行日 2024-04-15 04:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク