AttriBoT: A Bag of Tricks for Efficiently Approximating Leave-One-Out Context Attribution

要約

大規模言語モデル (LLM) の動作に対するコンテキスト入力の影響により、LLM の世代に対する各コンテキスト スパンの影響を定量化することを目的としたコンテキスト属性手法の開発が促進されました。
コンテキストの特定の範囲が削除されたときの LLM の応答の可能性の変化を測定する Leave-one-out (LOO) エラーは、コンテキストの帰属を実行する原則的な方法を提供しますが、大規模なコンテキストの計算には法外にコストがかかる可能性があります。
モデル。
この研究では、コンテキスト属性の LOO エラーの近似値を効率的に計算するための一連の新しい手法である AttriBoT を紹介します。
具体的には、AttriBoT はキャッシュされたアクティベーションを使用して冗長な操作を回避し、階層的な属性を実行して計算を削減し、より小さなプロキシ モデルで大規模なターゲット モデルの動作をエミュレートします。
総合すると、AttriBoT は、以前のコンテキスト アトリビューション メソッドよりもターゲット モデルの LOO エラーに忠実なままで、300 倍を超える高速化を実現できます。
このパフォーマンスの大幅な向上により、特定の応答に対するコンテキスト属性の計算が、応答自体を生成するよりも 30 倍高速になり、大規模な属性の計算を必要とする現実世界のアプリケーションが強化されます。
私たちは、ユーザーフレンドリーで効率的な AttriBoT の実装をリリースし、効率的な LLM の解釈を可能にし、効率的なコンテキスト アトリビューション手法の将来の開発を促進します。

要約(オリジナル)

The influence of contextual input on the behavior of large language models (LLMs) has prompted the development of context attribution methods that aim to quantify each context span’s effect on an LLM’s generations. The leave-one-out (LOO) error, which measures the change in the likelihood of the LLM’s response when a given span of the context is removed, provides a principled way to perform context attribution, but can be prohibitively expensive to compute for large models. In this work, we introduce AttriBoT, a series of novel techniques for efficiently computing an approximation of the LOO error for context attribution. Specifically, AttriBoT uses cached activations to avoid redundant operations, performs hierarchical attribution to reduce computation, and emulates the behavior of large target models with smaller proxy models. Taken together, AttriBoT can provide a >300x speedup while remaining more faithful to a target model’s LOO error than prior context attribution methods. This stark increase in performance makes computing context attributions for a given response 30x faster than generating the response itself, empowering real-world applications that require computing attributions at scale. We release a user-friendly and efficient implementation of AttriBoT to enable efficient LLM interpretability as well as encourage future development of efficient context attribution methods.

arxiv情報

著者 Fengyuan Liu,Nikhil Kandpal,Colin Raffel
発行日 2024-11-22 18:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク