要約
大規模言語モデルの機能と制限は、近年非常に詳細に概説されており、興味深いながらも相反する全体像を提供しています。
一方で、LLM は問題を解決する一般的な能力を示します。
その一方で、人間と比較すると驚くべき推論のギャップがあり、一般化戦略の堅牢性に疑問が投げかけられています。
LLM の設計で使用されるデータの量が膨大であるため、一般化を測定するために伝統的に使用されていた方法、つまりトレーニングとテスト セットの分離を適用することができませんでした。
これを克服するために、LLM が依存する事前トレーニング データを調査することで、推論タスクを実行するときに LLM がどのような一般化戦略を採用するかを研究します。
サイズの異なる 2 つのモデル (7B と 35B) および事前トレーニング トークンの 2.5B について、どのドキュメントが 3 つの単純な数学的推論タスクのモデル出力に影響を与えるかを特定し、これを事実に関する質問に答えるために影響を与えるデータと対比します。
モデルは事実に関する質問ごとにほとんど異なるデータセットに依存している一方で、文書は多くの場合、同じタスク内の異なる推論に関する質問に同様の影響を及ぼしており、手続き的知識の存在を示していることがわかりました。
さらに、事実に関する質問に対する答えは、最も影響力のあるデータに現れることが多いことがわかりました。
ただし、推論の質問の場合、通常、答えはそれほど影響力を示さず、中間の推論ステップの答えも影響しません。
推論の質問で上位にランクされた文書を定性的に特徴付けると、影響力のある文書には、数式やコードを使用して解決策を得る方法を示すなど、手続き的な知識が含まれていることが多いことが確認されます。
私たちの調査結果は、モデルが使用する推論のアプローチは検索とは異なり、同様の形式の推論を実行して文書から手続き型の知識を合成する一般化可能な戦略に近いことを示しています。
要約(オリジナル)
The capabilities and limitations of Large Language Models have been sketched out in great detail in recent years, providing an intriguing yet conflicting picture. On the one hand, LLMs demonstrate a general ability to solve problems. On the other hand, they show surprising reasoning gaps when compared to humans, casting doubt on the robustness of their generalisation strategies. The sheer volume of data used in the design of LLMs has precluded us from applying the method traditionally used to measure generalisation: train-test set separation. To overcome this, we study what kind of generalisation strategies LLMs employ when performing reasoning tasks by investigating the pretraining data they rely on. For two models of different sizes (7B and 35B) and 2.5B of their pretraining tokens, we identify what documents influence the model outputs for three simple mathematical reasoning tasks and contrast this to the data that are influential for answering factual questions. We find that, while the models rely on mostly distinct sets of data for each factual question, a document often has a similar influence across different reasoning questions within the same task, indicating the presence of procedural knowledge. We further find that the answers to factual questions often show up in the most influential data. However, for reasoning questions the answers usually do not show up as highly influential, nor do the answers to the intermediate reasoning steps. When we characterise the top ranked documents for the reasoning questions qualitatively, we confirm that the influential documents often contain procedural knowledge, like demonstrating how to obtain a solution using formulae or code. Our findings indicate that the approach to reasoning the models use is unlike retrieval, and more like a generalisable strategy that synthesises procedural knowledge from documents doing a similar form of reasoning.
arxiv情報
著者 | Laura Ruis,Maximilian Mozes,Juhan Bae,Siddhartha Rao Kamalakara,Dwarak Talupuru,Acyr Locatelli,Robert Kirk,Tim Rocktäschel,Edward Grefenstette,Max Bartolo |
発行日 | 2024-11-19 15:47:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google