要約
現在の LLM トレーニングでは、数学的推論がコア能力として位置づけられています。
公的に入手可能な情報源が十分に活用されているため、多様で難しい数学の質問に対する満たされていない需要があります。
人間の専門家だけに頼ると時間もコストもかかりますが、LLM が生成する質問には必要な多様性や難易度が欠けていることがよくあります。
私たちは、LLM の長所と人間参加型アプローチを組み合わせて、多様な難しい数学の問題を生成する設計フレームワークを紹介します。
私たちは、強力な LLM の LLM メタ認知スキル [Didolkar et al., 2024] を活用して、既存の数学データセットからコア「スキル」を抽出します。
これらのスキルは、コア スキルのランダムなペアを LLM に要求することにより、斬新で難しい質問を生成するための基礎として機能します。
各質問内で 2 つの異なるスキルを使用するため、LLM と人間の両方にとって、そのような質問を見つけることは「配布外」のタスクになります。
当社のパイプラインでは LLM を採用し、マルチターン プロンプトを通じて質問と解決策を繰り返し生成および洗練します。
その後、ヒューマン アノテーターが質問を検証し、さらに改良し、さらなる LLM インタラクションによって効率が向上します。
このパイプラインを MATH データセットから抽出されたスキルに適用すると [Hendrycks et al., 2021]、次のことから明らかなように、より質の高い数学の質問のデータセットである MATH$^2$ が得られました。 (a) MATH$ 上のすべてのモデルのパフォーマンスが低下
MATH よりも ^2$ (b) MATH$^2$ の質問をコンテキスト内の例として使用すると、MATH のパフォーマンスが向上します。
私たちの方法論は数学に焦点を当てていますが、構造化された推論を必要とする他の領域にも適用可能であり、拡張可能な監視のコンポーネントとして適用できる可能性があります。
また、興味深いのは、新しいデータセットでのモデルのパフォーマンス間に観察される顕著な関係です。MATH$^2$ の成功率は MATH の二乗であり、MATH$^2$ の問題をうまく解くには、次の 2 つの自明ではない組み合わせが必要であることを示唆しています。
独特の数学的スキル。
要約(オリジナル)
Current LLM training positions mathematical reasoning as a core capability. With publicly available sources fully tapped, there is unmet demand for diverse and challenging math questions. Relying solely on human experts is both time-consuming and costly, while LLM-generated questions often lack the requisite diversity and difficulty. We present a design framework that combines the strengths of LLMs with a human-in-the-loop approach to generate a diverse array of challenging math questions. We leverage LLM metacognition skills [Didolkar et al., 2024] of a strong LLM to extract core ‘skills’ from existing math datasets. These skills serve as the basis for generating novel and difficult questions by prompting the LLM with random pairs of core skills. The use of two different skills within each question makes finding such questions an ‘out of distribution’ task for both LLMs and humans. Our pipeline employs LLMs to iteratively generate and refine questions and solutions through multiturn prompting. Human annotators then verify and further refine the questions, with their efficiency enhanced via further LLM interactions. Applying this pipeline on skills extracted from the MATH dataset [Hendrycks et al., 2021] resulted in MATH$^2$ – a dataset of higher-quality math questions, as evidenced by: (a) Lower performance of all models on MATH$^2$ than on MATH (b) Higher performance on MATH when using MATH$^2$ questions as in-context examples. Although focused on mathematics, our methodology seems applicable to other domains requiring structured reasoning, and potentially as a component of scalable oversight. Also of interest is a striking relationship observed between models’ performance on the new dataset: the success rate on MATH$^2$ is the square on MATH, suggesting that successfully solving the question in MATH$^2$ requires a nontrivial combination of two distinct math skills.
arxiv情報
著者 | Vedant Shah,Dingli Yu,Kaifeng Lyu,Simon Park,Nan Rosemary Ke,Michael Mozer,Yoshua Bengio,Sanjeev Arora,Anirudh Goyal |
発行日 | 2024-07-30 17:55:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google