要約
LLM は通常、人間の専門家が応答するのと同じようにユーザーの質問に答えたり、指示に従ったりするように訓練されています。
しかし、標準的な調整フレームワークでは、回答する前に明示的に考えるという基本的な能力が欠けています。
思考力は、推論と計画が必要な複雑な質問には重要ですが、どのようなタスクにも応用できます。
我々は、追加の人間データを使用せずに、既存のLLMに一般的な指導のためのそのような思考能力を身に付けるためのトレーニング方法を提案します。
これは、考えられる思考生成の空間を探索する反復的な検索と最適化手順によって実現され、モデルが直接の監視なしで思考方法を学習できるようになります。
指示ごとに、思考候補は判定モデルを使用してスコア付けされ、その応答のみが評価され、その後、好みの最適化によって最適化されます。
この手順が AlpacaEval と Arena-Hard で優れたパフォーマンスにつながることを示し、より伝統的な推論と問題解決のタスクに加えて、マーケティング、健康、一般知識などの非推論カテゴリについて考えることで利益が得られることを示します。
要約(オリジナル)
LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning — but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.
arxiv情報
著者 | Tianhao Wu,Janice Lan,Weizhe Yuan,Jiantao Jiao,Jason Weston,Sainbayar Sukhbaatar |
発行日 | 2024-10-14 15:38:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google