Harmonic LLMs are Trustworthy

要約

$\gamma$ で示される調和性からのローカル偏差を介して、ブラックボックス LLM の堅牢性 (安定性と説明可能性) をリアルタイムでテストする直感的な方法を紹介します。
私たちの知る限り、これは、純粋に数学的標準に準拠するモデル自体に基づいて、LLM からの特定の応答のロバスト性を測定する、完全にモデルに依存せず教師なしの最初の方法です。
一般的な適用と結果の即時性を示すために、10 個の人気のある LLM (ChatGPT、Claude-2.1、Claude3.0、GPT-4、GPT-4o、Smaug-72B、Mixtral-8x7B、Llama2-7B、
Mistral-7B および MPT-7B) は、WebQA、ProgrammingQA、TruthfulQA の 3 つの対象ドメインにおける数千のクエリにわたって実行されます。
テストされたすべてのモデルとドメインにわたって、人間のアノテーションは $\gamma \to 0$ が信頼性を示していることを確認し、逆に $\gamma$ のより高い値を検索すると幻覚の例を簡単に明らかにします。これは、確率的勾配上昇を通じて効率的な敵対的プロンプトの生成を可能にする事実です。
$\ガンマ$。
それぞれのドメインのモデルの中で $\gamma$ が低いリーダーは GPT-4o、GPT-4、Smaug-72B であり、中規模のオープンソース モデルが大規模な商用モデルに勝てるという証拠を提供しています。

要約(オリジナル)

We introduce an intuitive method to test the robustness (stability and explainability) of any black-box LLM in real-time via its local deviation from harmoniticity, denoted as $\gamma$. To the best of our knowledge this is the first completely model-agnostic and unsupervised method of measuring the robustness of any given response from an LLM, based upon the model itself conforming to a purely mathematical standard. To show general application and immediacy of results, we measure $\gamma$ in 10 popular LLMs (ChatGPT, Claude-2.1, Claude3.0, GPT-4, GPT-4o, Smaug-72B, Mixtral-8x7B, Llama2-7B, Mistral-7B and MPT-7B) across thousands of queries in three objective domains: WebQA, ProgrammingQA, and TruthfulQA. Across all models and domains tested, human annotation confirms that $\gamma \to 0$ indicates trustworthiness, and conversely searching higher values of $\gamma$ easily exposes examples of hallucination, a fact that enables efficient adversarial prompt generation through stochastic gradient ascent in $\gamma$. The low-$\gamma$ leaders among the models in the respective domains are GPT-4o, GPT-4, and Smaug-72B, providing evidence that mid-size open-source models can win out against large commercial models.

arxiv情報

著者 Nicholas S. Kersting,Mohammad Rahman,Suchismitha Vedala,Yang Wang
発行日 2024-07-25 16:16:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク