Flaming-hot Initiation with Regular Execution Sampling for Large Language Models

要約

ChatGPT のリリース以来、大規模言語モデル (LLM) はさまざまなドメインにわたって優れた機能を実証してきました。
これらの一般的な機能を開発する際の主な課題は、多様で高品質のデータを効率的に調達することです。
これは、特定の問題に対する正しい解決策を高い確率で生成することが目標である、数学やコードなどのサンドボックス チェッカーを使用した推論関連のタスクで特に重要になります。
この作業では、良い応答を効率的に見つけるためのシンプルでありながら非常に効果的な方法である Flaming-hot Initiation with Regular Execution (FIRE) サンプリングを紹介します。
私たちの経験的調査結果は、FIRE サンプリングが推論時の生成品質を向上させ、アライメント段階でのトレーニングにも有益であることを示しています。
さらに、FIRE サンプリングが多様性を促進することでどのようにパフォーマンスを向上させるかを調査し、応答内のさまざまな位置で FIRE を採用した場合の影響を分析します。

要約(オリジナル)

Since the release of ChatGPT, large language models (LLMs) have demonstrated remarkable capabilities across various domains. A key challenge in developing these general capabilities is efficiently sourcing diverse, high-quality data. This becomes especially critical in reasoning-related tasks with sandbox checkers, such as math or code, where the goal is to generate correct solutions to specific problems with higher probability. In this work, we introduce Flaming-hot Initiation with Regular Execution (FIRE) sampling, a simple yet highly effective method to efficiently find good responses. Our empirical findings show that FIRE sampling enhances inference-time generation quality and also benefits training in the alignment stage. Furthermore, we explore how FIRE sampling improves performance by promoting diversity and analyze the impact of employing FIRE at different positions within a response.

arxiv情報

著者 Weizhe Chen,Zhicheng Zhang,Guanlin Liu,Renjie Zheng,Wenlei Shi,Chen Dun,Zheng Wu,Xing Jin,Lin Yan
発行日 2024-10-28 17:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク