要約
大規模言語モデル (LLM) から多様な応答を生成することは、多様性によって世代間で明確な答えが得られる、計画/検索や合成データ生成などのアプリケーションにとって非常に重要です。
従来のアプローチは、多様性を高めるために温度を上昇させることに依存していました。
しかし、一般的な考えに反して、このアプローチは気温が上昇すると品質の低い個々の世代を生成するだけでなく、モデルの次のトークンの確率が答えの真の分布に似ていることに依存することを示しました。
私たちは、言語モデル自体を使用して空間を階層に分割する代替アプローチである SimpleStrat を提案します。
推論では、ランダムな層が選択され、その層内からサンプルが抽出されます。
多様性を測定するために、CoverageQA (同様にもっともらしい回答が複数ある不特定の質問のデータセット) を導入し、出力分布と有効なグランド トゥルース回答の一様分布の間の KL ダイバージェンスを測定することで多様性を評価します。
独自モデルの応答/解ごとの確率を計算することは実行不可能であるため、グラウンド トゥルース ソリューションで再現率を測定します。
SimpleStrat を使用した評価では、GPT-4o と比較して 0.05 高い再現率を達成し、Llama 3 と比較して KL Divergence が平均 0.36 減少しました。
要約(オリジナル)
Generating diverse responses from large language models (LLMs) is crucial for applications such as planning/search and synthetic data generation, where diversity provides distinct answers across generations. Prior approaches rely on increasing temperature to increase diversity. However, contrary to popular belief, we show not only does this approach produce lower quality individual generations as temperature increases, but it depends on model’s next-token probabilities being similar to the true distribution of answers. We propose SimpleStrat, an alternative approach that uses the language model itself to partition the space into strata. At inference, a random stratum is selected and a sample drawn from within the strata. To measure diversity, we introduce CoverageQA, a dataset of underspecified questions with multiple equally plausible answers, and assess diversity by measuring KL Divergence between the output distribution and uniform distribution over valid ground truth answers. As computing probability per response/solution for proprietary models is infeasible, we measure recall on ground truth solutions. Our evaluation show using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36 average reduction in KL Divergence compared to Llama 3.
arxiv情報
著者 | Justin Wong,Yury Orlovskiy,Michael Luo,Sanjit A. Seshia,Joseph E. Gonzalez |
発行日 | 2024-10-14 17:32:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google