Eliciting Latent Predictions from Transformers with the Tuned Lens

要約

反復推論の観点からトランスフォーマーを分析し、モデル予測がレイヤーごとにどのように洗練されているかを理解しようとします。
そのために、凍結された事前トレーニング済みモデルの各ブロックのアフィン プローブをトレーニングし、すべての隠れた状態を語彙の分布にデコードできるようにします。
私たちの方法である \emph{同調レンズ} は、以前の「ロジット レンズ」技法を改良したもので、有用な洞察をもたらしましたが、しばしば脆いものです。
最大 200 億のパラメーターを持つさまざまな自己回帰言語モデルでメソッドをテストし、ロジット レンズよりも予測性、信頼性、公平性に優れていることを示しました。
因果実験により、調整されたレンズがモデル自体と同様の機能を使用することを示します。
また、潜在予測の軌跡を使用して、悪意のある入力を高精度で検出できることもわかりました。
結果を再現するために必要なすべてのコードは、https://github.com/AlignmentResearch/tuned-lens にあります。

要約(オリジナル)

We analyze transformers from the perspective of iterative inference, seeking to understand how model predictions are refined layer by layer. To do so, we train an affine probe for each block in a frozen pretrained model, making it possible to decode every hidden state into a distribution over the vocabulary. Our method, the \emph{tuned lens}, is a refinement of the earlier “logit lens” technique, which yielded useful insights but is often brittle. We test our method on various autoregressive language models with up to 20B parameters, showing it to be more predictive, reliable and unbiased than the logit lens. With causal experiments, we show the tuned lens uses similar features to the model itself. We also find the trajectory of latent predictions can be used to detect malicious inputs with high accuracy. All code needed to reproduce our results can be found at https://github.com/AlignmentResearch/tuned-lens.

arxiv情報

著者 Nora Belrose,Zach Furman,Logan Smith,Danny Halawi,Igor Ostrovsky,Lev McKinney,Stella Biderman,Jacob Steinhardt
発行日 2023-03-14 17:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク