BeHonest: Benchmarking Honesty of Large Language Models

要約

大規模言語モデル (LLM) に関するこれまでの研究は、主にその有用性または無害性を評価することに焦点を当ててきました。
しかし、もう 1 つの重要な調整基準である誠実さは、比較的注目されていません。
誤った情報の拡散やユーザーの欺瞞、ユーザーの信頼の低下、現実世界への危害の原因など、LLM における不正な行為は深刻なリスクをもたらし、これらのモデルが超知能レベルに近づくにつれて、そのリスクは増大します。
LLM の誠実性を強化すると、重大な欠陥が解決され、容易には表現されない潜在的な能力を明らかにするのに役立ちます。
これは、LLM の誠実さを効果的に保証し、評価するための信頼できる方法とベンチマークが緊急に必要であることを強調しています。
このペーパーでは、LLM の誠実さを包括的に評価するために特別に設計された先駆的なベンチマークである BeHonest を紹介します。
BeHonest は、知識の境界の認識、欺瞞の回避、応答の一貫性という誠実さの 3 つの重要な側面を評価します。
この基盤に基づいて、さまざまなモデル サイズを持つさまざまなモデル ファミリのクローズド ソース モデルとオープンソース モデルの両方を含む、市場で人気のある 9 つの LLM を評価および分析するための 10 のシナリオを設計しました。
私たちの調査結果は、LLM の誠実さにはまだ大きな改善の余地があることを示しています。
また、AI コミュニティに対して、LLM における誠実さの調整を優先することも奨励します。
私たちのベンチマークとコードは、\url{https://github.com/GAIR-NLP/BeHonest} にあります。

要約(オリジナル)

Previous works on Large Language Models (LLMs) have mainly focused on evaluating their helpfulness or harmlessness. However, honesty, another crucial alignment criterion, has received relatively less attention. Dishonest behaviors in LLMs, such as spreading misinformation and defrauding users, eroding user trust, and causing real-world harm, present severe risks that intensify as these models approach superintelligence levels. Enhancing honesty in LLMs addresses critical deficiencies and helps uncover latent capabilities that are not readily expressed. This underscores the urgent need for reliable methods and benchmarks to effectively ensure and evaluate the honesty of LLMs. In this paper, we introduce BeHonest, a pioneering benchmark specifically designed to assess honesty in LLMs comprehensively. BeHonest evaluates three essential aspects of honesty: awareness of knowledge boundaries, avoidance of deceit, and consistency in responses. Building on this foundation, we designed 10 scenarios to evaluate and analyze 9 popular LLMs on the market, including both closed-source and open-source models from different model families with varied model sizes. Our findings indicate that there is still significant room for improvement in the honesty of LLMs. We also encourage the AI community to prioritize honesty alignment in LLMs. Our benchmark and code can be found at: \url{https://github.com/GAIR-NLP/BeHonest}.

arxiv情報

著者 Steffi Chern,Zhulin Hu,Yuqing Yang,Ethan Chern,Yuan Guo,Jiahe Jin,Binjie Wang,Pengfei Liu
発行日 2024-07-01 15:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク