Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving

要約

メタ認知的知識とは、人間自身の思考と推論のプロセスに関する直感的な知識を指します。
現在の最高の LLM は明らかに、いくつかの推論プロセスを備えています。
この論文は、彼らが与えられたタスクに適用するスキルや手順を命名する能力など、メタ認知的な知識も持っているという証拠を示しています。
私たちはこれを主に数学的推論のコンテキストで調査し、強力な LLM に数学の問題に賢明なスキル ラベルを割り当てるためのプロンプトガイド付き対話手順を開発し、続いてセマンティック クラスタリングを実行させてより粗いスキル ラベルのファミリーを取得します。
これらの大まかなスキルラベルは人間にとって解釈可能に見えます。
これらのスキル ラベルが意味があり、LLM の推論プロセスに関連していることを検証するために、次の実験を実行します。
(a) GPT-4 に、数学データセット GSM8K および MATH のトレーニング質問にスキル ラベルを割り当てるよう依頼します。
(b) LLM を使用してテスト問題を解決する場合、スキル ラベルの完全なリストを LLM に提示し、必要なスキルを特定するよう求めます。
次に、そのスキル ラベルに関連付けられた、ランダムに選択された模範解答問題が提示されます。
これにより、コード支援モデルを含むいくつかの強力な LLM の GSM8k および MATH の精度が向上します。
この記事では数学の問題に適用していますが、提示された方法論はドメインに依存しません。

要約(オリジナル)

Metacognitive knowledge refers to humans’ intuitive knowledge of their own thinking and reasoning processes. Today’s best LLMs clearly possess some reasoning processes. The paper gives evidence that they also have metacognitive knowledge, including ability to name skills and procedures to apply given a task. We explore this primarily in context of math reasoning, developing a prompt-guided interaction procedure to get a powerful LLM to assign sensible skill labels to math questions, followed by having it perform semantic clustering to obtain coarser families of skill labels. These coarse skill labels look interpretable to humans. To validate that these skill labels are meaningful and relevant to the LLM’s reasoning processes we perform the following experiments. (a) We ask GPT-4 to assign skill labels to training questions in math datasets GSM8K and MATH. (b) When using an LLM to solve the test questions, we present it with the full list of skill labels and ask it to identify the skill needed. Then it is presented with randomly selected exemplar solved questions associated with that skill label. This improves accuracy on GSM8k and MATH for several strong LLMs, including code-assisted models. The methodology presented is domain-agnostic, even though this article applies it to math problems.

arxiv情報

著者 Aniket Didolkar,Anirudh Goyal,Nan Rosemary Ke,Siyuan Guo,Michal Valko,Timothy Lillicrap,Danilo Rezende,Yoshua Bengio,Michael Mozer,Sanjeev Arora
発行日 2024-05-20 17:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク