要約
現在のLLMトレーニングでは、数学的推論を中核的能力として位置づけている。一般に公開されている数学問題は十分に利用されているため、多様で難易度の高い数学問題に対する需要は満たされていません。人間の専門家だけに頼るのは時間とコストがかかる一方、LLMが作成した問題は必要な多様性と難易度に欠けていることが多い。我々は、LLMの長所とヒューマンインザループアプローチを組み合わせ、多様でチャレンジングな数学問題を生成するデザインフレームワークを提示します。強力なLLMのメタ認知スキル[Didolkar et al., 2024]を活用し、既存の数学データセットから核となる「スキル」を抽出する。これらのスキルは、LLMにコアスキルのランダムなペアをプロンプトすることで、斬新で難しい問題を生成するための基礎となる。各問題で2つの異なるスキルを使用することで、LLMと人間の両方にとって、そのような問題を見つけることは「分布外の」タスクとなる。私たちのパイプラインは、LLMを使用し、マルチターンプロンプティングにより、質問と解答を繰り返し生成し、改良します。その後、人間のアノテーターが問題を検証し、さらに洗練させ、LLMとのさらなる対話によって効率を高めます。MATHデータセット[Hendrycks et al., 2021]から抽出されたスキルにこのパイプラインを適用した結果、MATH$^2$が生まれました:(b)MATH$^2$の問題をインコンテキストの例題として使用した場合、MATHのパフォーマンスが高くなった。数学に焦点を当てたが、我々の方法論は構造化推論を必要とする他のドメインにも適用できそうであり、スケーラブルな監視のコンポーネントとして利用できる可能性がある。MATH$^2$での成功率はMATHでの2乗であり、MATH$^2$の問題をうまく解くには、2つの異なる数学スキルの自明でない組み合わせが必要であることを示唆している。
要約(オリジナル)
Current LLM training positions mathematical reasoning as a core capability. With publicly available sources fully tapped, there is unmet demand for diverse and challenging math questions. Relying solely on human experts is both time-consuming and costly, while LLM-generated questions often lack the requisite diversity and difficulty. We present a design framework that combines the strengths of LLMs with a human-in-the-loop approach to generate a diverse array of challenging math questions. We leverage LLM metacognition skills [Didolkar et al., 2024] of a strong LLM to extract core ‘skills’ from existing math datasets. These skills serve as the basis for generating novel and difficult questions by prompting the LLM with random pairs of core skills. The use of two different skills within each question makes finding such questions an ‘out of distribution’ task for both LLMs and humans. Our pipeline employs LLMs to iteratively generate and refine questions and solutions through multiturn prompting. Human annotators then verify and further refine the questions, with their efficiency enhanced via further LLM interactions. Applying this pipeline on skills extracted from the MATH dataset [Hendrycks et al., 2021] resulted in MATH$^2$ – a dataset of higher-quality math questions, as evidenced by: (a) Lower performance of all models on MATH$^2$ than on MATH (b) Higher performance on MATH when using MATH$^2$ questions as in-context examples. Although focused on mathematics, our methodology seems applicable to other domains requiring structured reasoning, and potentially as a component of scalable oversight. Also of interest is a striking relationship observed between models’ performance on the new dataset: the success rate on MATH$^2$ is the square on MATH, suggesting that successfully solving the question in MATH$^2$ requires a nontrivial combination of two distinct math skills.
arxiv情報
著者 | Vedant Shah,Dingli Yu,Kaifeng Lyu,Simon Park,Nan Rosemary Ke,Michael Mozer,Yoshua Bengio,Sanjeev Arora,Anirudh Goyal |
発行日 | 2024-09-02 18:01:44+00:00 |
arxivサイト | arxiv_id(pdf) |