Scalable Influence and Fact Tracing for Large Language Model Pretraining

要約

トレーニング データ アトリビューション (TDA) メソッドは、モデル出力を特定のトレーニング サンプルに帰属させることを目的としており、これらのメソッドを大規模言語モデル (LLM) 出力に適用すると、モデルの透明性とデータ キュレーションが大幅に進歩する可能性があります。
ただし、これらの方法を本格的な LLM 事前トレーニングに適用することはこれまで困難でした。
この論文では、既存の勾配ベースの手法を大規模に効果的に機能するように改良し、サブサンプリングや事前フィルタリングを必要とせずに、160B トークンを超える事前トレーニング コーパスから 8B パラメータ言語モデルの影響力のある例を取得できるようにします。
私たちの手法は、オプティマイザ状態補正、タスク固有のヘシアン近似、正規化エンコーディングなど、大規模なパフォーマンスにとって重要であることがわかっているいくつかの手法を組み合わせています。
ファクト追跡タスクの定量的評価では、モデルの予測に影響を与える例を特定する点では私たちの方法が最も優れていますが、BM25 などの古典的なモデルに依存しない検索方法は、関連する事実を明示的に含むパッセージを見つける点では依然として優れています。
これらの結果は、事実の「帰属」と因果関係の「影響」が一致していないことを示しています。
モデルのサイズとトレーニング トークンが増加すると、影響力が事実の帰属とより密接に一致することがわかります。
最後に、私たちの方法によって影響力があると特定されたさまざまなタイプの例を調べ、多くは特定の事実を直接含んでいるものの、他の例は関係タイプ、共通エンティティ、および名前に関する事前分布を強化することによって同じ出力をサポートしていることがわかりました。
プロンプト セットとモデルの出力を、事実の予測、常識的推論、算術演算、および 8B パラメーター LLM のオープンエンド生成の影響力のある例を調査するための Web ベースの視覚化ツールとともにリリースします。

要約(オリジナル)

Training data attribution (TDA) methods aim to attribute model outputs back to specific training examples, and the application of these methods to large language model (LLM) outputs could significantly advance model transparency and data curation. However, it has been challenging to date to apply these methods to the full scale of LLM pretraining. In this paper, we refine existing gradient-based methods to work effectively at scale, allowing us to retrieve influential examples for an 8B-parameter language model from a pretraining corpus of over 160B tokens with no need for subsampling or pre-filtering. Our method combines several techniques, including optimizer state correction, a task-specific Hessian approximation, and normalized encodings, which we find to be critical for performance at scale. In quantitative evaluations on a fact tracing task, our method performs best at identifying examples that influence model predictions, but classical, model-agnostic retrieval methods such as BM25 still perform better at finding passages which explicitly contain relevant facts. These results demonstrate a misalignment between factual *attribution* and causal *influence*. With increasing model size and training tokens, we find that influence more closely aligns with factual attribution. Finally, we examine different types of examples identified as influential by our method, finding that while many directly entail a particular fact, others support the same output by reinforcing priors on relation types, common entities, and names. We release our prompt set and model outputs, along with a web-based visualization tool to explore influential examples for factual predictions, commonsense reasoning, arithmetic, and open-ended generation for an 8B-parameter LLM.

arxiv情報

著者 Tyler A. Chang,Dheeraj Rajagopal,Tolga Bolukbasi,Lucas Dixon,Ian Tenney
発行日 2024-12-10 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク