Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving


現在の最高の LLM は明らかに、いくつかの推論プロセスを備えています。
私たちはこれを主に数学的推論のコンテキストで調査し、強力な LLM に数学の問題に賢明なスキル ラベルを割り当てるためのプロンプトガイド付き対話手順を開発し、続いてセマンティック クラスタリングを実行させてより粗いスキル ラベルのファミリーを取得します。
これらのスキル ラベルが意味があり、LLM の推論プロセスに関連していることを検証するために、次の実験を実行します。
(a) GPT-4 に、数学データセット GSM8K および MATH のトレーニング質問にスキル ラベルを割り当てるよう依頼します。
(b) LLM を使用してテスト問題を解決する場合、スキル ラベルの完全なリストを LLM に提示し、必要なスキルを特定するよう求めます。
次に、そのスキル ラベルに関連付けられた、ランダムに選択された模範解答問題が提示されます。
これにより、コード支援モデルを含むいくつかの強力な LLM の GSM8k および MATH の精度が向上します。


Metacognitive knowledge refers to humans’ intuitive knowledge of their own thinking and reasoning processes. Today’s best LLMs clearly possess some reasoning processes. The paper gives evidence that they also have metacognitive knowledge, including ability to name skills and procedures to apply given a task. We explore this primarily in context of math reasoning, developing a prompt-guided interaction procedure to get a powerful LLM to assign sensible skill labels to math questions, followed by having it perform semantic clustering to obtain coarser families of skill labels. These coarse skill labels look interpretable to humans. To validate that these skill labels are meaningful and relevant to the LLM’s reasoning processes we perform the following experiments. (a) We ask GPT-4 to assign skill labels to training questions in math datasets GSM8K and MATH. (b) When using an LLM to solve the test questions, we present it with the full list of skill labels and ask it to identify the skill needed. Then it is presented with randomly selected exemplar solved questions associated with that skill label. This improves accuracy on GSM8k and MATH for several strong LLMs, including code-assisted models. The methodology presented is domain-agnostic, even though this article applies it to math problems.


著者 Aniket Didolkar,Anirudh Goyal,Nan Rosemary Ke,Siyuan Guo,Michal Valko,Timothy Lillicrap,Danilo Rezende,Yoshua Bengio,Michael Mozer,Sanjeev Arora
発行日 2024-05-20 17:45:26+00:00
