Self-training Language Models for Arithmetic Reasoning

要約

言語モデルは、複雑な複数ステップの推論を伴うタスクで優れた結果を達成しますが、これらの機能をさらに拡張するには、従来より多くの注釈付きデータを高価に収集する必要がありました。
この研究では、新しいデータを使用せずに、算術推論 (自己トレーニング) での予測の妥当性に対する自動フィードバックを使用するだけで、言語モデルの機能を向上させる可能性を探ります。
モデルは、単一ラウンド (オフライン) とオンラインの自己トレーニングの両方で大幅に改善できることがわかりました。
オフライン設定では、教師ありメソッドは優先順位の最適化に匹敵する利益をもたらすことができますが、オンラインのセルフトレーニングでは、優先順位の最適化は、目に見えないタイプの問題に対する優れた安定性と堅牢性のおかげで、教師ありトレーニングを大幅に上回るパフォーマンスを示します。

要約(オリジナル)

Language models achieve impressive results in tasks involving complex multistep reasoning, but scaling these capabilities further traditionally requires expensive collection of more annotated data. In this work, we explore the potential of improving the capabilities of language models without new data, merely using automated feedback to the validity of their predictions in arithmetic reasoning (self-training). We find that models can substantially improve in both single-round (offline) and online self-training. In the offline setting, supervised methods are able to deliver gains comparable to preference optimization, but in online self-training, preference optimization shows to largely outperform supervised training thanks to superior stability and robustness on unseen types of problems.

arxiv情報

著者 Marek Kadlčík,Michal Štefánik
発行日 2024-07-11 11:06:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク