Soft Self-Consistency Improves Language Model Agents

要約

大規模言語モデル (LLM) からの生成は、複数のソリューションをサンプリングしてスコアリングして最終的な答えを選択することで改善できます。
自己一貫性 (SC) などの現在の「サンプルと選択」方法は、回答をスコアリングするために多数決に依存しています。
ただし、タスクに明確で有効な回答が多数ある場合、投票による選択には大量のサンプルが必要です。
このため、複数のアクション (回答) を順番に生成する対話型タスクでは、SC のコストが法外に高くなります。
多数決ではそのようなタスクで一貫した利益が得られないことを確認した後、採点基準を緩和することで成功率を高める方法を示します。
Soft Self-Consistency (Soft-SC) を導入します。これは、SC の不連続スコアをモデルの尤度から計算された連続スコアに置き換え、アクションがまばらに分散している場合でも選択を可能にします。
Soft-SC は長期対話型タスクのパフォーマンスと効率の両方を向上させ、同等以上のパフォーマンスを得るには SC の半分のサンプル数が必要です。
一定のサンプル数の場合、Soft-SC は、bash プログラムの作成で絶対成功率が SC よりも 1.3% 増加し、オンライン ショッピング (WebShop) で 6.6% 増加し、インタラクティブな家庭用ゲーム (ALFWorld) で 4.7% 増加します。
)。
最後に、Soft-SC がオープンソース モデルとブラック ボックス モデルの両方に適用できることを示します。

要約(オリジナル)

Generations from large language models (LLMs) can be improved by sampling and scoring multiple solutions to select a final answer. Current ‘sample and select’ methods such as self-consistency (SC) rely on majority voting to score answers. However, when tasks have many distinct and valid answers, selection by voting requires a large number of samples. This makes SC prohibitively expensive for interactive tasks that involve generating multiple actions (answers) sequentially. After establishing that majority voting fails to provide consistent gains on such tasks, we demonstrate how to increase success rates by softening the scoring criterion. We introduce Soft Self-Consistency (Soft-SC), which replaces SC’s discontinuous scoring with a continuous score computed from model likelihoods, allowing for selection even when actions are sparsely distributed. Soft-SC improves both performance and efficiency on long-horizon interactive tasks, requiring half as many samples as SC for comparable or better performance. For a fixed number of samples, Soft-SC leads to a 1.3% increase over SC in absolute success rate on writing bash programs, a 6.6% increase on online shopping (WebShop), and a 4.7% increase for an interactive household game (ALFWorld). Finally, we show that Soft-SC can be applied to both open-source and black-box models.

arxiv情報

著者 Han Wang,Archiki Prasad,Elias Stengel-Eskin,Mohit Bansal
発行日 2024-02-20 18:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク