Characterizing Verbatim Short-Term Memory in Neural Language Models

要約

タイトル: ニューラル言語モデルにおける逐語的短期記憶の特徴付け

要約:

– ランゲージモデルは、自然言語シーケンスを予測するように訓練されるとき、各瞬間の予測は先行文脈の表現に基づく。
– ランゲージモデルがその前文脈についてどのような情報を回収できるのかを調べた。
– transformers と LSTM が英語のテキストを処理し、名詞のリストが 2 回出現する実験を行った。
– 回収の異なる程度を最初のリストと2度目のリストのsurprisalの差で測定した。
– transformer は、最初のリストから名詞の同一性と順序を回収することができた。モデルの学習データが大きくなると、transformerが回収能力が大幅に向上したことも発見された。
– 一方、LSTM は、最初のトークンと短い間隔の間に存在するリストの最初のトークンを不正確に回収した。
– LSTM の回収力は、名詞の順序に敏感ではなく、リストが意味的に一貫している場合に改善された。
– transformers は、任意の遅延時間で個々のトークン表現を柔軟に回収することができる作業メモリシステムのようなものを実装していることがわかった。
– 反対に、LSTM は、初期の項目に重点を置いて前のトークンのシソジストをより迅速に減衰させることで、より粗い語義を維持する。

要約(オリジナル)

When a language model is trained to predict natural language sequences, its prediction at each moment depends on a representation of prior context. What kind of information about the prior context can language models retrieve? We tested whether language models could retrieve the exact words that occurred previously in a text. In our paradigm, language models (transformers and an LSTM) processed English text in which a list of nouns occurred twice. We operationalized retrieval as the reduction in surprisal from the first to the second list. We found that the transformers retrieved both the identity and ordering of nouns from the first list. Further, the transformers’ retrieval was markedly enhanced when they were trained on a larger corpus and with greater model depth. Lastly, their ability to index prior tokens was dependent on learned attention patterns. In contrast, the LSTM exhibited less precise retrieval, which was limited to list-initial tokens and to short intervening texts. The LSTM’s retrieval was not sensitive to the order of nouns and it improved when the list was semantically coherent. We conclude that transformers implemented something akin to a working memory system that could flexibly retrieve individual token representations across arbitrary delays; conversely, the LSTM maintained a coarser and more rapidly-decaying semantic gist of prior tokens, weighted toward the earliest items.

arxiv情報

著者 Kristijan Armeni,Christopher Honey,Tal Linzen
発行日 2023-05-01 20:00:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク