When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories

要約

大規模言語モデル (LM) は、さまざまなタスクで目覚ましいパフォーマンスを発揮しますが、依然として豊富な世界知識を必要とするタスクには苦労しており、豊富な世界知識をエンコードするためにパラメータのみに依存することには限界があることを示唆しています。
この論文は、14,000の質問を含む新しいオープンドメインQAデータセットであるPopQA上で10のモデルと4つの拡張手法の大規模な知識調査実験を実施することにより、事実知識の暗記におけるLMの強みと限界を理解することを目的としています。
LM はあまり一般的ではない事実知識に苦労しており、スケーリングによってロングテールの事実知識の暗記が大幅に改善されないことがわかりました。
次に、検索強化された LM が桁違いに大きな LM よりも優れたパフォーマンスを発揮する一方で、支援なしの LM は人気の高いエンティティに関する質問において依然として競争力を維持していることを示します。
これらの発見に基づいて、必要な場合にのみノンパラメトリック記憶を取得する、強力かつ効率的な検索拡張 LM のための、シンプルでありながら効果的な方法を考案します。
実験結果は、これにより推論コストが削減されながらモデルのパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Despite their impressive performance on diverse tasks, large language models (LMs) still struggle with tasks requiring rich world knowledge, implying the limitations of relying solely on their parameters to encode a wealth of world knowledge. This paper aims to understand LMs’ strengths and limitations in memorizing factual knowledge, by conducting large-scale knowledge probing experiments of 10 models and 4 augmentation methods on PopQA, our new open-domain QA dataset with 14k questions. We find that LMs struggle with less popular factual knowledge, and that scaling fails to appreciably improve memorization of factual knowledge in the long tail. We then show that retrieval-augmented LMs largely outperform orders of magnitude larger LMs, while unassisted LMs remain competitive in questions about high-popularity entities. Based on those findings, we devise a simple, yet effective, method for powerful and efficient retrieval-augmented LMs, which retrieves non-parametric memories only when necessary. Experimental results show that this significantly improves models’ performance while reducing the inference costs.

arxiv情報

著者 Alex Mallen,Akari Asai,Victor Zhong,Rajarshi Das,Daniel Khashabi,Hannaneh Hajishirzi
発行日 2023-05-30 17:27:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク