Do Smaller Language Models Answer Contextualised Questions Through Memorisation Or Generalisation?

要約

多くの場合、類似性の高いトレーニング サンプルから直接記憶された評価サンプルのラベルを予測するモデルの能力と、何らかの一般化方法を介してラベルを予測する能力との間で区別されます。
質問応答に言語モデルを使用するという文脈では、暗記によって質問がどの程度回答されるかについて議論が行われ続けています。
この問題は、関連するコンテキストに基づいて推論することで理想的に答えられる質問に対して考慮されます。
私たちは、モデルが答えを記憶している可能性が非常に低い評価サンプルを特定する方法を提案します。
私たちの方法は、トレーニングサンプルと評価サンプル間の入力トークンとラベルトークンの意味的類似性に基づいています。
我々の方法は、トークンの連続または不連続シーケンスで重複する評価訓練ペアを表面化できるという点で、いくつかの従来のアプローチに比べて利点があることを示します。
この方法を使用して、評価データセットの記憶できないサブセットを特定します。
2 つの言語モデルをマルチタスク方式でトレーニングします。2 番目のモデルが最初のモデルと異なるのは、トレーニング領域に 2 つの追加のデータセットが追加されている点だけです。これらのデータセットは、一部の言語モデルのパフォーマンスを向上させることが知られている種類の単純な数値推論戦略を与えるように設計されています。
評価データセットには含まれますが、他のデータセットには含まれません。
次に、追加のトレーニング データセットから恩恵を受けると予想される評価データセットの記憶不可能なサブセットに関して 2 つのモデル間にパフォーマンスの向上があることを示します。
具体的には、2 つの評価データセット DROP と ROPES の記憶不可能なサブセットのパフォーマンスがそれぞれ 9.0% と 25.7% 大幅に向上しましたが、他の評価データセットではパフォーマンスに大きな変化はありませんでした。

要約(オリジナル)

A distinction is often drawn between a model’s ability to predict a label for an evaluation sample that is directly memorised from highly similar training samples versus an ability to predict the label via some method of generalisation. In the context of using Language Models for question-answering, discussion continues to occur as to the extent to which questions are answered through memorisation. We consider this issue for questions that would ideally be answered through reasoning over an associated context. We propose a method of identifying evaluation samples for which it is very unlikely our model would have memorised the answers. Our method is based on semantic similarity of input tokens and label tokens between training and evaluation samples. We show that our method offers advantages upon some prior approaches in that it is able to surface evaluation-train pairs that have overlap in either contiguous or discontiguous sequences of tokens. We use this method to identify unmemorisable subsets of our evaluation datasets. We train two Language Models in a multitask fashion whereby the second model differs from the first only in that it has two additional datasets added to the training regime that are designed to impart simple numerical reasoning strategies of a sort known to improve performance on some of our evaluation datasets but not on others. We then show that there is performance improvement between the two models on the unmemorisable subsets of the evaluation datasets that were expected to benefit from the additional training datasets. Specifically, performance on unmemorisable subsets of two of our evaluation datasets, DROP and ROPES significantly improves by 9.0%, and 25.7% respectively while other evaluation datasets have no significant change in performance.

arxiv情報

著者 Tim Hartill,Joshua Bensemann,Michael Witbrock,Patricia J. Riddle
発行日 2023-11-21 04:06:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク