要約
言語モデル (LM) の最近の開発により、NLP タスク、特に知識集約型タスクにおいてその有効性が示されています。
ただし、パラメータ内の知識の保存とメモリ アクセスの基礎となるメカニズムは依然として解明されていません。
この論文では、生成 LM (GPT-2 など) がそのメモリにシーケンシャルまたはランダムにアクセスできるかどうかを調査します。
完全な暗唱、選択的暗唱、根拠のある質問応答のシナリオをカバーする、慎重に設計された合成タスクを通じて、LM が暗記内容にランダムにアクセスするという課題に直面しながらも、なんとか記憶に順次アクセスできることが明らかになりました。
我々は、朗読と順列を含む技術が LM のランダム メモリ アクセス能力を向上させることを発見しました。
さらに、この介入をオープンドメインの質問応答の現実的なシナリオに適用することにより、暗唱によるランダムアクセスの強化が質問応答の顕著な改善につながることを検証します。
実験を再現するコードは https://github.com/sail-sg/lm-random-memory-access にあります。
要約(オリジナル)
Recent developments in Language Models (LMs) have shown their effectiveness in NLP tasks, particularly in knowledge-intensive tasks. However, the mechanisms underlying knowledge storage and memory access within their parameters remain elusive. In this paper, we investigate whether a generative LM (e.g., GPT-2) is able to access its memory sequentially or randomly. Through carefully-designed synthetic tasks, covering the scenarios of full recitation, selective recitation and grounded question answering, we reveal that LMs manage to sequentially access their memory while encountering challenges in randomly accessing memorized content. We find that techniques including recitation and permutation improve the random memory access capability of LMs. Furthermore, by applying this intervention to realistic scenarios of open-domain question answering, we validate that enhancing random access by recitation leads to notable improvements in question answering. The code to reproduce our experiments can be found at https://github.com/sail-sg/lm-random-memory-access.
arxiv情報
著者 | Tongyao Zhu,Qian Liu,Liang Pang,Zhengbao Jiang,Min-Yen Kan,Min Lin |
発行日 | 2024-07-22 15:29:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google