Importance Weighting Can Help Large Language Models Self-Improve

要約

大規模言語モデル (LLM) は、多数のタスクやアプリケーションで顕著な機能を示しています。
ただし、外部の監督下で高品質のデータセットを使用して LLM を微調整するのは、依然として法外なコストがかかります。
これに応じて、LLM 自己改善アプローチが最近活発に開発されています。
LLM 自己改善の典型的なパラダイムには、自己生成データで LLM をトレーニングすることが含まれますが、その一部は有害な可能性があり、データ品質が不安定であるため除外する必要があります。
現在の研究では主に回答の正しさに基づいたフィルタリング戦略が採用されていますが、この論文では、正しいが分布シフト範囲 (DSE) が高いサンプルをフィルタリングして除外することも自己改善の結果に利益をもたらす可能性があることを示しています。
通常、実際のサンプル分布にはアクセスできないことを考慮して、重要度加重法にヒントを得て、DSE を近似するための DS 加重と呼ばれる新しい指標を提案します。
その結果、DS の重みと自己一貫性を統合して、自己生成されたサンプルを包括的にフィルタリングし、言語モデルを微調整します。
実験では、DS 重みを計算するためのわずかな有効セット (トレーニング セットの最大 5\% サイズ) のみを使用して、私たちのアプローチが現在の LLM 自己改善手法の推論能力を顕著に促進できることが示されています。
結果として得られるパフォーマンスは、事前トレーニングされた報酬モデルからの外部監視に依存する方法と同等です。

要約(オリジナル)

Large language models (LLMs) have shown remarkable capability in numerous tasks and applications. However, fine-tuning LLMs using high-quality datasets under external supervision remains prohibitively expensive. In response, LLM self-improvement approaches have been vibrantly developed recently. The typical paradigm of LLM self-improvement involves training LLM on self-generated data, part of which may be detrimental and should be filtered out due to the unstable data quality. While current works primarily employs filtering strategies based on answer correctness, in this paper, we demonstrate that filtering out correct but with high distribution shift extent (DSE) samples could also benefit the results of self-improvement. Given that the actual sample distribution is usually inaccessible, we propose a new metric called DS weight to approximate DSE, inspired by the Importance Weighting methods. Consequently, we integrate DS weight with self-consistency to comprehensively filter the self-generated samples and fine-tune the language model. Experiments show that with only a tiny valid set (up to 5\% size of the training set) to compute DS weight, our approach can notably promote the reasoning ability of current LLM self-improvement methods. The resulting performance is on par with methods that rely on external supervision from pre-trained reward models.

arxiv情報

著者 Chunyang Jiang,Chi-min Chan,Wei Xue,Qifeng Liu,Yike Guo
発行日 2024-08-19 09:51:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク