Great Memory, Shallow Reasoning: Limits of $k$NN-LMs

要約

検索と次の単語の予測を統合する $K$-最近傍言語モデル ($k$NN-LMs) は、言語モデリングおよび下流の NLP ベンチマークにおいて優れたパフォーマンスを実証しました。
これらの結果から、研究者らは、低品質または古いデータでトレーニングされたモデルは、高品質のデータストアにアクセスできる $k$NN 拡張機能を採用することで良好なパフォーマンスを発揮できる可能性があると主張しています。
この研究では、情報を思い出す能力の向上が実際に下流の能力に反映されるかどうかを尋ねます。
私たちは、感情分類や常識的推論からマルチホップ推論に至るまで、さまざまなタスクのセットで $k$NN-LM を広範囲に評価します。
結果は、$k$NN-LMは、入力のパターンを活用することで出力を決定するのに十分な、メモリ集約型のタスクでは優れていますが、新しい知識を導き出すために複数の情報を統合する必要がある推論タスクには苦労していることを示しています。
さらに、オラクル実験と定性分析を通じて、$k$NN-LM は完全な検索を行っても依然として正しい答えを決定できず、推論パフォーマンスに上限が設けられていることを示します。
コードとデータストアは https://github.com/GSYfate/knnlm-limits/ でリリースされます。

要約(オリジナル)

$K$-nearest neighbor language models ($k$NN-LMs), which integrate retrieval with next-word prediction, have demonstrated strong performance in language modeling as well as downstream NLP benchmarks. These results have led researchers to argue that models trained on poor quality or outdated data could perform well by employing a $k$NN extension that has access to a higher-quality datastore. In this work, we ask whether this improved ability to recall information really translates into downstream abilities. We extensively evaluate $k$NN-LMs on a diverse set of tasks, ranging from sentiment classification and commonsense reasoning to multi-hop reasoning. Results show that $k$NN-LMs excel at memory-intensive tasks, where utilizing the patterns in the input is sufficient for determining the output, but struggle with reasoning tasks that require integrating multiple pieces of information to derive new knowledge. We further demonstrate through oracle experiments and qualitative analysis that even with perfect retrieval, $k$NN-LMs still fail to determine the correct answers, placing an upper bound on their reasoning performance. Code and datastores are released at https://github.com/GSYfate/knnlm-limits/.

arxiv情報

著者 Shangyi Geng,Wenting Zhao,Alexander M Rush
発行日 2024-08-21 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク