Efficient Single-Pass Training for Multi-Turn Reasoning

要約

大規模な言語モデル(LLMS)をトレーニングして、数学やコーディングなどのさまざまなタスクでパフォーマンスを向上させることが示されていることが示されています。
ただし、マルチターン推論データセットでの微調整LLMは、独自の課題を提示します。LLMは、LLMへの後続の入力から除外される推論トークンを生成する必要があります。
この不一致により、マルチターンの非合理的なデータセットで微調整すると、1回のフォワードパスで会話全体を処理できなくなります。
このペーパーでは、応答トークンの複製を介してこの制限を克服する新しいアプローチと、適切な視認性の制約を強制するカスタム注意マスクを提案します。
私たちのアプローチは、トレーニング時間を大幅に短縮し、マルチターン推論データセットで効率的な微調整を可能にします。

要約(オリジナル)

Training Large Language Models ( LLMs) to generate explicit reasoning before they produce an answer has been shown to improve their performance across various tasks such as mathematics and coding. However, fine-tuning LLMs on multi-turn reasoning datasets presents a unique challenge: LLMs must generate reasoning tokens that are excluded from subsequent inputs to the LLM. This discrepancy prevents us from processing an entire conversation in a single forward pass-an optimization readily available when we fine-tune on a multi-turn non-reasoning dataset. This paper proposes a novel approach that overcomes this limitation through response token duplication and a custom attention mask that enforces appropriate visibility constraints. Our approach significantly reduces the training time and allows efficient fine-tuning on multi-turn reasoning datasets.

arxiv情報

著者 Ritesh Goru,Shanay Mehta,Prateek Jain
発行日 2025-04-25 10:46:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク