Guiding Through Complexity: What Makes Good Supervision for Hard Reasoning Tasks?

要約

平均的なヒューマン アノテーターや既存の AI システムなどの「弱い教師モデル」は、どのようにして LLM を効果的に監督して、困難な推論タスク、特に教師モデルの専門知識や日々の練習に挑戦し、必要とするタスクのパフォーマンスを向上させることができるのでしょうか?
この論文では、さまざまな複雑さのタスクに対してさまざまな品質レベルで監視データを提供するさまざまなデータ駆動型戦略を調査することで、この質問に対する経験的な答えを求めます。
アライメントトレーニング中に教師モデルが監督を提供するための 2 つの直感的な戦略が浮かび上がります。1) 対象の推論タスクの難易度に一致する完全なタスクから低品質の監督を使用すること、2) 難易度が低く、より簡単なサブタスクから高品質の監督を活用することです。
興味深いことに、難しいタスクの監視の結果エラー率が高い場合(たとえば、90%)でも、そのようなデータでのトレーニングは、複数の難しい数学ベンチマークで、より簡単なサブタスクでの完全に正しい監視よりも優れたパフォーマンスを発揮できることがわかりました。
さらに、トレーニングのパフォーマンスに影響を与えるより重要な要素である、ソリューション内のエラーの重大度を示す段階的なエラー率を特定します。
具体的には、結果のエラー率が同じでもステップごとのエラー率が異なるハード タスク監視のトレーニングでは、MATH ベンチマークで 30\% の精度の差が生じる可能性があります。
また、我々の結果は、ハードタスク監視を対応するサブタスク監視で補完すると、言い換えたハードタスク全体監視を単純に組み合わせるよりも顕著なパフォーマンス向上が得られることも明らかにしており、データ拡張の新たな道を示唆しています。
データとコードは \url{https://github.com/hexuan21/Weak-to-Strong} でリリースされています。

要約(オリジナル)

How can ‘weak teacher models’ such as average human annotators or existing AI systems, effectively supervise LLMs to improve performance on hard reasoning tasks, especially those that challenge and requires expertise or daily practice from the teacher models? In this paper, we seek for empirical answers to this question by investigating various data-driven strategies that offer supervision data at different quality levels upon tasks of varying complexity. Two intuitive strategies emerge for teacher models to provide supervision during alignment training: 1) using lower-quality supervision from complete tasks that match the difficulty of the target reasoning tasks, and 2) leveraging higher-quality supervision from easier subtasks that are less challenging. Interestingly, we find that even when the outcome error rate for hard task supervision is high (e.g., 90\%), training on such data can outperform perfectly correct supervision on easier subtasks on multiple hard math benchmarks. We further identify a more critical factor influencing training performance: step-wise error rates, which indicate the severity of errors in solutions. Specifically, training on hard task supervision with the same outcome error rates but disparate step-wise error rates can lead to a 30\% accuracy gap on MATH benchmark. Our results also reveal that supplementing hard task supervision with the corresponding subtask supervision can yield notable performance improvements than simply combining rephrased hard full task supervision, suggesting new avenues for data augmentation. Data and code are released at \url{https://github.com/hexuan21/Weak-to-Strong}.

arxiv情報

著者 Xuan He,Da Yin,Nanyun Peng
発行日 2024-10-30 17:56:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク