The MASK Benchmark: Disentangling Honesty From Accuracy in AI Systems

要約

大規模な言語モデル(LLM)がより有能でエージェントになるにつれて、出力に対する信頼の要件は大幅に増加しますが、同時に、モデルが目標を追求することを学ぶことを学ぶことができるという懸念が高まっています。
これらの懸念に対処するために、欺cept的な行動を緩和することを目的とした介入とともに、LLMSの「誠実さ」の概念を中心に一連の仕事が現れています。
ただし、誠実さの評価は現在非常に限られており、すべてのモデルへの大規模と適用性を組み合わせたベンチマークはありません。
さらに、誠実さを測定すると主張する多くのベンチマークは、実際には単に精度、つまりモデルの信念の正しさ – 変装を測定します。
この作業では、誠実さを直接測定するための大規模な人間収集データセットを導入し、正直さから初めて正確さを解くことができます。
LLMの多様なセットでは、より大きなモデルがベンチマークでより高い精度を得るが、より正直になることはないことがわかります。
驚くべきことに、ほとんどのフロンティアLLMは真実性のベンチマークで高いスコアを取得しますが、フロンティアLLMがそうするようにプレッシャーをかけたときに嘘をつく可能性が高いことを発見し、ベンチマークで誠実なスコアが低くなります。
表現工学の介入などの簡単な方法が誠実さを改善できることがわかります。
これらの結果は、LLMが信頼できることを保証するための堅牢な評価と効果的な介入の必要性の高まりを強調しています。

要約(オリジナル)

As large language models (LLMs) become more capable and agentic, the requirement for trust in their outputs grows significantly, yet at the same time concerns have been mounting that models may learn to lie in pursuit of their goals. To address these concerns, a body of work has emerged around the notion of ‘honesty’ in LLMs, along with interventions aimed at mitigating deceptive behaviors. However, evaluations of honesty are currently highly limited, with no benchmark combining large scale and applicability to all models. Moreover, many benchmarks claiming to measure honesty in fact simply measure accuracy–the correctness of a model’s beliefs–in disguise. In this work, we introduce a large-scale human-collected dataset for measuring honesty directly, allowing us to disentangle accuracy from honesty for the first time. Across a diverse set of LLMs, we find that while larger models obtain higher accuracy on our benchmark, they do not become more honest. Surprisingly, while most frontier LLMs obtain high scores on truthfulness benchmarks, we find a substantial propensity in frontier LLMs to lie when pressured to do so, resulting in low honesty scores on our benchmark. We find that simple methods, such as representation engineering interventions, can improve honesty. These results underscore the growing need for robust evaluations and effective interventions to ensure LLMs remain trustworthy.

arxiv情報

著者 Richard Ren,Arunim Agarwal,Mantas Mazeika,Cristina Menghini,Robert Vacareanu,Brad Kenstler,Mick Yang,Isabelle Barrass,Alice Gatti,Xuwang Yin,Eduardo Trevino,Matias Geralnik,Adam Khoja,Dean Lee,Summer Yue,Dan Hendrycks
発行日 2025-03-05 18:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク