要約
大規模な言語モデル(LLMS)の動作に対するコンテキスト入力の影響により、LLMの世代に対する各コンテキストスパンの効果を定量化することを目的とするコンテキスト属性方法の開発が促されました。
コンテキストの特定のスパンが削除された場合のLLMの応答の可能性の変化を測定する休暇(LOO)エラーは、コンテキスト属性を実行するための原則的な方法を提供しますが、大規模なモデルを計算するために法外に費用がかかる可能性があります。
この作業では、コンテキスト属性のLOO誤差の近似を効率的に計算するための一連の新しい技術であるAttribotを紹介します。
具体的には、Attribotはキャッシュされたアクティベーションを使用して冗長操作を回避し、階層的属性を実行して計算を削減し、より小さなプロキシモデルで大きなターゲットモデルの動作をエミュレートします。
まとめると、Attribotは、以前のコンテキストの帰属方法よりもターゲットモデルのLOOエラーに忠実でありながら、300倍以上のスピードアップを提供できます。
このパフォーマンスの上昇により、特定の応答のコンピューティングコンテキストの属性が、応答自体を生成するよりも30倍高速になり、大規模なコンピューティング属性を必要とする実際のアプリケーションに力を与えます。
効率的なLLM解釈可能性を有効にするために、ユーザーフレンドリーで効率的なAttribotの実装をリリースし、効率的なコンテキスト属性方法の将来の開発を促進します。
要約(オリジナル)
The influence of contextual input on the behavior of large language models (LLMs) has prompted the development of context attribution methods that aim to quantify each context span’s effect on an LLM’s generations. The leave-one-out (LOO) error, which measures the change in the likelihood of the LLM’s response when a given span of the context is removed, provides a principled way to perform context attribution, but can be prohibitively expensive to compute for large models. In this work, we introduce AttriBoT, a series of novel techniques for efficiently computing an approximation of the LOO error for context attribution. Specifically, AttriBoT uses cached activations to avoid redundant operations, performs hierarchical attribution to reduce computation, and emulates the behavior of large target models with smaller proxy models. Taken together, AttriBoT can provide a >300x speedup while remaining more faithful to a target model’s LOO error than prior context attribution methods. This stark increase in performance makes computing context attributions for a given response 30x faster than generating the response itself, empowering real-world applications that require computing attributions at scale. We release a user-friendly and efficient implementation of AttriBoT to enable efficient LLM interpretability as well as encourage future development of efficient context attribution methods.
arxiv情報
著者 | Fengyuan Liu,Nikhil Kandpal,Colin Raffel |
発行日 | 2025-03-21 15:47:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google