Explainability of Large Language Models using SMILE: Statistical Model-agnostic Interpretability with Local Explanations

要約

GPT、Llama、Claudeなどの大規模な言語モデルは、テキストを生成することで非常に強力になっていますが、それでもブラックボックスであるため、何を言うかをどのように決定するかを理解するのは困難です。
特に信頼と説明責任が重要な分野では、透明性の欠如が問題になる可能性があります。
これを支援するために、これらのモデルがプロンプトのさまざまな部分にどのように反応するかを説明する新しい方法であるSmileを紹介します。
Smileはモデルに依存しており、入力をわずかに変更し、出力がどのように変化するかを測定し、どの単語が最も影響を与えたかを強調することで機能します。
プロンプトのどの部分が最も重要であるかを示すシンプルな視覚ヒートマップを作成します。
いくつかの主要なLLMでSmileをテストし、精度、一貫性、安定性、忠実度などのメトリックを使用して、明確で信頼できる説明を提供することを示しました。
これらのモデルを理解しやすくすることで、SmileはAIをより透明で信頼できるものにすることに一歩近づきます。

要約(オリジナル)

Large language models like GPT, LLAMA, and Claude have become incredibly powerful at generating text, but they are still black boxes, so it is hard to understand how they decide what to say. That lack of transparency can be problematic, especially in fields where trust and accountability matter. To help with this, we introduce SMILE, a new method that explains how these models respond to different parts of a prompt. SMILE is model-agnostic and works by slightly changing the input, measuring how the output changes, and then highlighting which words had the most impact. Create simple visual heat maps showing which parts of a prompt matter the most. We tested SMILE on several leading LLMs and used metrics such as accuracy, consistency, stability, and fidelity to show that it gives clear and reliable explanations. By making these models easier to understand, SMILE brings us one step closer to making AI more transparent and trustworthy.

arxiv情報

著者 Zeinab Dehghani,Mohammed Naveed Akram,Koorosh Aslansefat,Adil Khan
発行日 2025-06-13 16:43:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク