Contrastive Decoding Improves Reasoning in Large Language Models

要約

私たちは、Li et al 2022 によって提案された、単純で計算量が少なく、トレーニング不要のテキスト生成方法である Contrastive Decoding が、さまざまな推論タスクで貪欲な復号に比べてすぐに使用できる大幅な改善を達成することを実証します。
元々、長文テキスト生成の知覚品質を向上させることが示されていた対照デコーディングは、強いモデルと弱いモデルの間の尤度の重み付けされた差を最大化する文字列を検索します。
対照的デコーディングにより、LLaMA-65B が HellaSwag 常識推論ベンチマークで LLaMA 2、GPT-3.5、および PaLM 2-L を上回り、GSM8K 数学単語推論ベンチマークで LLaMA 2、GPT-3.5、および PaLM-540B を上回るパフォーマンスを示すことがわかります。
他のタスクのコレクションの改善に加えて。
分析によると、対照的デコーディングは、一部の抽象的な推論エラーを防ぎ、思考連鎖中に入力のセクションをコピーするなどの単純なモードを回避することによって、既存の方法よりも改善されることが示唆されています。
全体として、コントラスト デコーディングは、長文生成の核サンプリングや推論タスクの貪欲デコーディングよりも優れたパフォーマンスを発揮し、言語モデルからテキストを生成するための強力な汎用方法となっています。

要約(オリジナル)

We demonstrate that Contrastive Decoding — a simple, computationally light, and training-free text generation method proposed by Li et al 2022 — achieves large out-of-the-box improvements over greedy decoding on a variety of reasoning tasks. Originally shown to improve the perceived quality of long-form text generation, Contrastive Decoding searches for strings that maximize a weighted difference in likelihood between strong and weak models. We show that Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM 2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA 2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in addition to improvements on a collection of other tasks. Analysis suggests that Contrastive Decoding improves over existing methods by preventing some abstract reasoning errors, as well as by avoiding simpler modes such as copying sections of the input during chain-of-thought. Overall, Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks, making it a powerful general purpose method for generating text from language models.

arxiv情報

著者 Sean O’Brien,Mike Lewis
発行日 2023-09-29 15:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク