要約
言語モデル (LM) がさまざまな NLP タスクでパフォーマンスの向上を実現するにつれて、分類器の内部動作をより深く理解するためには、分類器の精査が不可欠な手法となっています。
一般的なセットアップには、(1) ラベルで注釈が付けられたテキストのデータセットで構成される補助タスクを定義すること、次に (2) データセットを処理する際に、事前トレーニングされた LM の表現からラベルを予測するための小さな分類器を監視することが含まれます。
高いプロービング精度は、LM が元の事前トレーニング目的の教師なし副産物として補助タスクを実行することを学習した証拠として解釈されます。
しかし、プローブが広く使用されているにもかかわらず、プロービング実験の堅牢な設計と分析は依然として課題です。
私たちは、構造因果モデル (SCM) を使用したプロービングに関する正式な観点を開発します。
具体的には、トレーニング中に観察されたトークンの分布を説明する SCM が与えられた場合、LM が SCM の潜在変数を表すことを学習したかどうかという中心仮説を組み立てます。
経験的に、私たちは合成グリッドワールドナビゲーションタスクのコンテキストでLMの最近の研究を拡張しました。そこでは、根底にある因果構造の正確なモデルがあるため、精査実験の結果から強力な推論を引き出すことができます。
私たちの技術は、テキストの根底にある潜在概念を誘導するLMの能力についての堅牢な経験的証拠を提供します。
要約(オリジナル)
As language models (LMs) deliver increasing performance on a range of NLP tasks, probing classifiers have become an indispensable technique in the effort to better understand their inner workings. A typical setup involves (1) defining an auxiliary task consisting of a dataset of text annotated with labels, then (2) supervising small classifiers to predict the labels from the representations of a pretrained LM as it processed the dataset. A high probing accuracy is interpreted as evidence that the LM has learned to perform the auxiliary task as an unsupervised byproduct of its original pretraining objective. Despite the widespread usage of probes, however, the robust design and analysis of probing experiments remains a challenge. We develop a formal perspective on probing using structural causal models (SCM). Specifically, given an SCM which explains the distribution of tokens observed during training, we frame the central hypothesis as whether the LM has learned to represent the latent variables of the SCM. Empirically, we extend a recent study of LMs in the context of a synthetic grid-world navigation task, where having an exact model of the underlying causal structure allows us to draw strong inferences from the result of probing experiments. Our techniques provide robust empirical evidence for the ability of LMs to induce the latent concepts underlying text.
arxiv情報
著者 | Charles Jin,Martin Rinard |
発行日 | 2024-07-31 05:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google