Self-training Language Models for Arithmetic Reasoning


この研究では、新しいデータを使用せずに、算術推論 (自己トレーニング) での予測の妥当性に対する自動フィードバックを使用するだけで、言語モデルの機能を向上させる可能性を探ります。
モデルは、単一ラウンド (オフライン) とオンラインの自己トレーニングの両方で大幅に改善できることがわかりました。


Language models achieve impressive results in tasks involving complex multistep reasoning, but scaling these capabilities further traditionally requires expensive collection of more annotated data. In this work, we explore the potential of improving the capabilities of language models without new data, merely using automated feedback to the validity of their predictions in arithmetic reasoning (self-training). We find that models can substantially improve in both single-round (offline) and online self-training. In the offline setting, supervised methods are able to deliver gains comparable to preference optimization, but in online self-training, preference optimization shows to largely outperform supervised training thanks to superior stability and robustness on unseen types of problems.


著者 Marek Kadlčík,Michal Štefánik
発行日 2024-07-11 11:06:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク