Linear Recency Bias During Training Improves Transformers’ Fit to Reading Times

要約

最近の心理言語学的研究では、人間の文章処理の難しさを形成する要因を研究するために、人間の読書時間を言語モデルからの驚くべき推定値と比較しました。
これまでの研究では、『トランスフォーマー』の驚きの価値と読書時間との間に強い一致があることが示されています。
ただし、標準のトランスフォーマーは、記憶の減衰を含む人間の言語処理のモデルとは異なり、以前の言語コンテキスト全体のロスレス表現を処理します。
このギャップを埋めるために、この論文では、注目スコアに追加される最新性バイアスである ALiBi (Press et al., 2022) を使用する Transformer モデルの修正を評価します。
ALiBi による驚くべき推定値は、標準の Transformer ベースラインと比較して、人間の読書時間への適合性が向上していることを示しています。
その後のアテンションヘッドの分析では、ALiBi の傾きの混合(各アテンションヘッドの記憶減衰率を決定)が、ALiBi を使用したモデルがさまざまな種類の言語依存性を追跡できるようにすることで、改善に役割を果たしている可能性があることが示唆されています。

要約(オリジナル)

Recent psycholinguistic research has compared human reading times to surprisal estimates from language models to study the factors shaping human sentence processing difficulty. Previous studies have shown a strong fit between surprisal values from Transformers and reading times. However, standard Transformers work with a lossless representation of the entire previous linguistic context, unlike models of human language processing that include memory decay. To bridge this gap, this paper evaluates a modification of the Transformer model that uses ALiBi (Press et al., 2022), a recency bias added to attention scores. Surprisal estimates with ALiBi show an improved fit to human reading times compared to a standard Transformer baseline. A subsequent analysis of attention heads suggests that ALiBi’s mixture of slopes — which determine the rate of memory decay in each attention head — may play a role in the improvement by helping models with ALiBi to track different kinds of linguistic dependencies.

arxiv情報

著者 Christian Clark,Byung-Doh Oh,William Schuler
発行日 2024-09-17 14:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク