要約
言語モデルは、推論タスクを解決する際に顕著なパフォーマンスを実証しました。
ただし、最も強力なモデルであっても、推論上の間違いを犯すことがあります。
最近では、特に事前トレーニングされた言語モデルを使用して複数ラウンドのプロンプトを通じて間違いを「自己修正」することにより、推論の精度を向上させることを目的とした活発な研究が行われています。
このペーパーでは、この一連の作業に従いますが、「エラー修正」データを事前トレーニング段階に直接組み込むことの有用性を理解することに焦点を当てます。
このデータは、誤った解決ステップの直後に修正が行われたもので構成されています。
合成数学データセットを使用して、有望な結果を示します。このタイプの事前トレーニング データは、同じ量のエラーで事前トレーニングする場合と比較して、言語モデルが直接 (つまり、複数ラウンドのプロンプトなしの単純な自動回帰を通じて) より高い推論精度を達成するのに役立ちます。
無料のデータ。
また、(1) このアプローチがビーム探索とどのように異なるか、(2) そのようなデータをどのように準備できるか、(3) 誤ったトークンにマスキングが必要かどうか、(4) 必要なエラーの量など、多くの詳細も掘り下げます。
、(5)そのようなデータを微調整段階まで延期できるかどうか、その他多くのこと。
要約(オリジナル)
Language models have demonstrated remarkable performance in solving reasoning tasks; however, even the strongest models still occasionally make reasoning mistakes. Recently, there has been active research aimed at improving reasoning accuracy, particularly by using pretrained language models to ‘self-correct’ their mistakes via multi-round prompting. In this paper, we follow this line of work but focus on understanding the usefulness of incorporating ‘error-correction’ data directly into the pretraining stage. This data consists of erroneous solution steps immediately followed by their corrections. Using a synthetic math dataset, we show promising results: this type of pretrain data can help language models achieve higher reasoning accuracy directly (i.e., through simple auto-regression, without multi-round prompting) compared to pretraining on the same amount of error-free data. We also delve into many details, such as (1) how this approach differs from beam search, (2) how such data can be prepared, (3) whether masking is needed on the erroneous tokens, (4) the amount of error required, (5) whether such data can be deferred to the fine-tuning stage, and many others.
arxiv情報
著者 | Tian Ye,Zicheng Xu,Yuanzhi Li,Zeyuan Allen-Zhu |
発行日 | 2024-08-29 06:49:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google