Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models

要約

大規模な言語モデルの機能と制限は、近年、非常に詳細にスケッチされており、興味深いが矛盾する絵を提供しています。
一方で、LLMSは問題を解決する一般的な能力を示しています。
一方、彼らは人間と比較して驚くべき推論ギャップを示し、一般化戦略の堅牢性に疑問を投げかけます。
LLMSの設計で使用されるデータの膨大な量は、一般化の測定に従来使用されていた方法を適用することを妨げています:列車テストセットの分離。
これを克服するために、LLMSが依存している前削除データを調査することにより、LLMが推論タスクを実行する際にどのような一般化戦略を使用するかを研究します。
事前トークンの異なるサイズ(7Bおよび35B)と2.5Bの2つのモデルの場合、3つの単純な数学的推論タスクのモデル出力に影響を与えるドキュメントを特定し、これを事実上の質問に答えるのに影響を与えるデータとは対照的です。
モデルは、事実上の質問ごとにほとんど別個のデータセットに依存しているが、ドキュメントは同じタスク内の異なる推論質問にわたって同様の影響を及ぼし、手続き的な知識の存在を示すことが多いことがわかります。
さらに、事実の質問に対する答えは、最も影響力のあるデータにしばしば表示されることがわかります。
ただし、推論の質問のために、回答は通常、非常に影響力があるとは表示されず、中間推論の手順に対する回答も表示されません。
推論の質問について定性的にランク付けされたドキュメントを特徴付けると、影響力のあるドキュメントには、フォーミュラまたはコードを使用してソリューションを取得する方法を示すなど、手続き上の知識が含まれていることが多いことを確認します。
私たちの調査結果は、モデルの使用を推論するためのアプローチは検索とは異なることを示しており、同様の形式の推論を行う文書からの手続き上の知識を統合する一般化可能な戦略のようなものです。

要約(オリジナル)

The capabilities and limitations of Large Language Models have been sketched out in great detail in recent years, providing an intriguing yet conflicting picture. On the one hand, LLMs demonstrate a general ability to solve problems. On the other hand, they show surprising reasoning gaps when compared to humans, casting doubt on the robustness of their generalisation strategies. The sheer volume of data used in the design of LLMs has precluded us from applying the method traditionally used to measure generalisation: train-test set separation. To overcome this, we study what kind of generalisation strategies LLMs employ when performing reasoning tasks by investigating the pretraining data they rely on. For two models of different sizes (7B and 35B) and 2.5B of their pretraining tokens, we identify what documents influence the model outputs for three simple mathematical reasoning tasks and contrast this to the data that are influential for answering factual questions. We find that, while the models rely on mostly distinct sets of data for each factual question, a document often has a similar influence across different reasoning questions within the same task, indicating the presence of procedural knowledge. We further find that the answers to factual questions often show up in the most influential data. However, for reasoning questions the answers usually do not show up as highly influential, nor do the answers to the intermediate reasoning steps. When we characterise the top ranked documents for the reasoning questions qualitatively, we confirm that the influential documents often contain procedural knowledge, like demonstrating how to obtain a solution using formulae or code. Our findings indicate that the approach to reasoning the models use is unlike retrieval, and more like a generalisable strategy that synthesises procedural knowledge from documents doing a similar form of reasoning.

arxiv情報

著者 Laura Ruis,Maximilian Mozes,Juhan Bae,Siddhartha Rao Kamalakara,Dwarak Talupuru,Acyr Locatelli,Robert Kirk,Tim Rocktäschel,Edward Grefenstette,Max Bartolo
発行日 2025-03-06 15:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク