Robust Preference Optimization through Reward Model Distillation

要約

言語モデル(LM)のポストトレーニング(またはアライメント)には、嗜好アノテーションから得られる報酬関数を最大化することが含まれる。直接プリファレンス最適化(DPO)は、報酬モデルの訓練や強化学習を適用することなく、嗜好データから直接ポリシーを訓練する、よく使われるオフラインアライメント手法である。しかし、経験的な証拠から、DPOは一般的にオーバーフィットする暗黙の報酬を割り当て、無限大になる傾向があることが示唆されている。これはしばしば退化した政策につながり、時には好ましい世代の確率さえもゼロになってしまう。この研究では、この現象を分析し、世代ペアに対する真の嗜好分布のより良い代理を得るために蒸留を用いる:我々は、その誘導された暗黙的報酬、すなわち、参照モデルに対するモデルの対数尤度比をスケーリングしたものが、嗜好データで訓練された明示的報酬モデルと一致するように、LMを訓練する。さらに、ディスティリング元の報酬モデルの不確実性を考慮するため、全体として嗜好分布の少なくとも1つの妥当な代理を含む可能性の高い報酬モデル群に対して最適化を行う。我々の結果は、このような報酬モデル群から抽出することで、DPOの単純な教師ありの性質を維持しつつ、嗜好注釈の分布シフトに対する頑健性が向上することを示している。

要約(オリジナル)

Language model (LM) post-training (or alignment) involves maximizing a reward function that is derived from preference annotations. Direct Preference Optimization (DPO) is a popular offline alignment method that trains a policy directly on preference data without the need to train a reward model or apply reinforcement learning. However, the empirical evidence suggests that DPO typically assigns implicit rewards that overfit, and trend towards infinite magnitude. This frequently leads to degenerate policies, sometimes causing even the probabilities of the preferred generations to go to zero. In this work, we analyze this phenomenon and use distillation to get a better proxy for the true preference distribution over generation pairs: we train the LM such that its induced implicit reward, i.e., the scaled log-likelihood ratio of the model to the reference model, matches an explicit reward model trained on the preference data. Moreover, to account for uncertainty in the reward model we are distilling from, we optimize against a family of reward models that, as a whole, is likely to include at least one reasonable proxy for the preference distribution. Our results show that distilling from such a family of reward models leads to improved robustness to distribution shift in preference annotations, while preserving the simple supervised nature of DPO.

arxiv情報

著者 Adam Fisch,Jacob Eisenstein,Vicky Zayats,Alekh Agarwal,Ahmad Beirami,Chirag Nagpal,Pete Shaw,Jonathan Berant
発行日 2025-03-03 08:22:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | Robust Preference Optimization through Reward Model Distillation はコメントを受け付けていません

SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

要約

ニューラル・サロゲート・モデルは、データマイニングにおける強力かつ効率的なツールとして登場した。一方、大規模言語モデル(LLM)は、コード関連のタスクにおいて顕著な能力を発揮している。我々は、コード実行予測のためのサロゲートモデルとしてLLMを使用するという新しいアプリケーションを調査する。LLMが多様なプログラムを理解し処理するユニークな能力を持つことから、汎用的なサロゲートモデルを構築するための有望な方向性を示している。この能力を系統的に調査するために、我々はSURGEを導入する。SURGEは、多言語プログラミングタスク、競争レベルのプログラミング問題、リポジトリレベルのコード解析、高コスト科学計算、時間-完全性集約アルゴリズム、バグコード解析、特定のコンパイラや実行環境に依存するプログラム、形式的数学証明検証など、$8$の主要な側面をカバーする$1160$の問題を含む包括的ベンチマークである。21$のオープンソースとプロプライエタリのLLMの広範な実証分析を通じて、スケーリング法則、データ効率、予測精度を検証する。我々の発見は、計算プロセスの効率的なサロゲートとしてのLLMの実現可能性に関する重要な洞察を明らかにし、自動ソフトウェアテスト、プログラム解析、データマイニングアプリケーションにおける計算リソースの最適化に示唆を与える。コードとデータセットはhttps://github.com/Imbernoulli/SURGE。

要約(オリジナル)

Neural surrogate models have emerged as powerful and efficient tools in data mining. Meanwhile, large language models (LLMs) have demonstrated remarkable capabilities in code-related tasks. We investigate a novel application: using LLMs as surrogate models for code execution prediction. Given LLMs’ unique ability to understand and process diverse programs, they present a promising direction for building general-purpose surrogate models. To systematically investigate this capability, we introduce SURGE, a comprehensive benchmark with $1160$ problems covering $8$ key aspects: multi-language programming tasks, competition-level programming problems, repository-level code analysis, high-cost scientific computing, time-complexity-intensive algorithms, buggy code analysis, programs dependent on specific compilers or execution environments, and formal mathematical proof verification. Through extensive empirical analysis of $21$ open-source and proprietary LLMs, we examine scaling laws, data efficiency, and predictive accuracy. Our findings reveal important insights about the feasibility of LLMs as efficient surrogates for computational processes, with implications for automated software testing, program analysis, and computational resource optimization in data mining applications. Code and dataset are released at https://github.com/Imbernoulli/SURGE.

arxiv情報

著者 Bohan Lyu,Siqiao Huang,Zichen Liang
発行日 2025-03-03 08:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors はコメントを受け付けていません

LaERC-S: Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics

要約

会話における感情認識(ERC)は、会話内の各発言に対する人間の感情を識別するタスクであり、人間とコンピュータの相互作用システムにおいて大きな注目を集めている。これまでのERC研究では、主に発話間の関係に由来する話者固有の情報に焦点が当てられており、会話に関する十分な情報が不足している。最近のERC研究では、感情状態を理解するために、事前に訓練された大規模言語モデル(LLM)と話者モデリングを利用しようとしている。これらの方法は有望な結果を得ているが、抽出された話者固有の情報は感情のダイナミクスを示すのに苦労している。本論文では、話者の特徴が重要な役割を果たし、LLMが豊富な世界知識を持っているという事実に動機づけられ、我々は、正確な感情予測のために、対話者の精神状態と行動を含む話者の特徴を探索するようにLLMを刺激する新しいフレームワーク、LaERC-Sを提示する。この知識情報をLLMに付与するために、2段階学習を採用し、複雑な会話シナリオにおいて、モデルが話者の特徴を推論し、話者の感情を追跡するようにする。3つのベンチマークデータセットを用いた広範な実験により、LaERC-Sの優位性が実証され、新たな最先端技術に到達した。

要約(オリジナル)

Emotion recognition in conversation (ERC), the task of discerning human emotions for each utterance within a conversation, has garnered significant attention in human-computer interaction systems. Previous ERC studies focus on speaker-specific information that predominantly stems from relationships among utterances, which lacks sufficient information around conversations. Recent research in ERC has sought to exploit pre-trained large language models (LLMs) with speaker modelling to comprehend emotional states. Although these methods have achieved encouraging results, the extracted speaker-specific information struggles to indicate emotional dynamics. In this paper, motivated by the fact that speaker characteristics play a crucial role and LLMs have rich world knowledge, we present LaERC-S, a novel framework that stimulates LLMs to explore speaker characteristics involving the mental state and behavior of interlocutors, for accurate emotion predictions. To endow LLMs with this knowledge information, we adopt the two-stage learning to make the models reason speaker characteristics and track the emotion of the speaker in complex conversation scenarios. Extensive experiments on three benchmark datasets demonstrate the superiority of LaERC-S, reaching the new state-of-the-art.

arxiv情報

著者 Yumeng Fu,Junjie Wu,Zhongjie Wang,Meishan Zhang,Lili Shan,Yulin Wu,Bingquan Li
発行日 2025-03-03 09:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | LaERC-S: Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics はコメントを受け付けていません

Speculative Decoding and Beyond: An In-Depth Survey of Techniques

要約

逐次的な依存関係は、特にリアルタイムアプリケーションにおいて、大規模な自己回帰モデルを展開する際の基本的なボトルネックとなる。枝刈りや量子化のような従来の最適化アプローチは、しばしばモデルの品質を損なうが、世代洗練フレームワークにおける最近の進歩は、このトレードオフを大幅に軽減できることを示している。 このサーベイでは、自己回帰シーケンスのタスクにわたる手法を分析し、世代絞り込みフレームワークの包括的な分類法を提示する。生成戦略(単純なn-gram予測から洗練されたドラフトモデルまで)と洗練メカニズム(シングルパス検証や反復アプローチを含む)に基づいて手法を分類する。アルゴリズムの革新とシステムレベルの実装の両方を系統的に分析することで、コンピューティング環境全体での展開戦略を検証し、テキスト、画像、音声生成にまたがるアプリケーションを探求する。理論的フレームワークと実用的な実装の両方を系統的に検証することで、効率的な自己回帰復号における今後の研究の基礎を提供する。

要約(オリジナル)

Sequential dependencies present a fundamental bottleneck in deploying large-scale autoregressive models, particularly for real-time applications. While traditional optimization approaches like pruning and quantization often compromise model quality, recent advances in generation-refinement frameworks demonstrate that this trade-off can be significantly mitigated. This survey presents a comprehensive taxonomy of generation-refinement frameworks, analyzing methods across autoregressive sequence tasks. We categorize methods based on their generation strategies (from simple n-gram prediction to sophisticated draft models) and refinement mechanisms (including single-pass verification and iterative approaches). Through systematic analysis of both algorithmic innovations and system-level implementations, we examine deployment strategies across computing environments and explore applications spanning text, images, and speech generation. This systematic examination of both theoretical frameworks and practical implementations provides a foundation for future research in efficient autoregressive decoding.

arxiv情報

著者 Yunhai Hu,Zining Liu,Zhenyuan Dong,Tianfan Peng,Bradley McDanel,Sai Qian Zhang
発行日 2025-03-03 12:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Speculative Decoding and Beyond: An In-Depth Survey of Techniques はコメントを受け付けていません

The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community

要約

人間とモデルの会話は、ユーザーの実世界のシナリオ、行動、ニーズを知る窓を提供するため、モデル開発と研究のための貴重なリソースとなります。営利企業が自社モデルのAPIを通じてユーザーデータを収集し、それを社内で使用して自社モデルを改善する一方で、オープンソースや研究コミュニティは遅れをとっています。 我々は、大規模な言語モデルを持つ人間の会話の統一されたセットであるShareLMコレクションと、それに付随するプラグインを紹介する。ShareLMプラグインは、会話を共有するプラットフォームが少ない中で、この機能を追加することで、ユーザがほとんどのプラットフォームから会話を共有できるようにします。このプラグインにより、ユーザーは会話と応答の両方のレベルで自分の会話を評価し、非公開にしたい会話をユーザーのローカルストレージを離れる前に削除することができます。我々は、プラグインの会話をShareLMコレクションの一部として公開し、オープンなヒューマンモデルデータの分野におけるコミュニティのさらなる努力を呼びかける。 コード、プラグイン、データは利用可能です。

要約(オリジナル)

Human-model conversations provide a window into users’ real-world scenarios, behavior, and needs, and thus are a valuable resource for model development and research. While for-profit companies collect user data through the APIs of their models, using it internally to improve their own models, the open source and research community lags behind. We introduce the ShareLM collection, a unified set of human conversations with large language models, and its accompanying plugin, a Web extension for voluntarily contributing user-model conversations. Where few platforms share their chats, the ShareLM plugin adds this functionality, thus, allowing users to share conversations from most platforms. The plugin allows the user to rate their conversations, both at the conversation and the response levels, and delete conversations they prefer to keep private before they ever leave the user’s local storage. We release the plugin conversations as part of the ShareLM collection, and call for more community effort in the field of open human-model data. The code, plugin, and data are available.

arxiv情報

著者 Shachar Don-Yehiya,Leshem Choshen,Omri Abend
発行日 2025-03-03 13:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | The ShareLM Collection and Plugin: Contributing Human-Model Chats for the Benefit of the Community はコメントを受け付けていません

Optimize Incompatible Parameters through Compatibility-aware Knowledge Integration

要約

ディープニューラルネットワークは、レコメンデーションシステムや自然言語処理など、様々な領域における進歩の基礎となっている。その成功にもかかわらず、これらのモデルには、特に特定の様々なデータ分布に直面したときに、十分に活用されなかったり、モデルの性能に悪影響を及ぼしたりする、互換性のないパラメータが含まれていることがよくあります。既存の研究は、このようなパラメータを除去したり、複数の異なる事前学習済みモデルの出力を統合したりすることに優れています。しかし、前者は性能よりも効率に重点を置いており、後者は推論をサポートするために数倍のコンピューティングリソースとストレージリソースを必要とする。本論文では、異なるモデルの相補的な強みを活用することで、これらの互換性のないパラメータを明示的に改善し、パラメータを追加することなくモデルを直接強化することを目標とする。具体的には、パラメータ互換性評価とパラメータスプライシングからなる互換性を考慮した知識統合(CKI)を提案し、それぞれ複数のモデルの知識内容を評価し、知識を1つのモデルに統合する。統合されたモデルは、推論に直接利用することも、さらなる微調整に利用することもできる。その結果、互換性を考慮した知識統合は、複数のタスクや設定の下で互換性のないパラメータを効果的に最適化し、推論コストを増加させることなく、元のモデルの学習限界を突破できることが示される。

要約(オリジナル)

Deep neural networks have become foundational to advancements in multiple domains, including recommendation systems, natural language processing, and so on. Despite their successes, these models often contain incompatible parameters that can be underutilized or detrimental to model performance, particularly when faced with specific, varying data distributions. Existing research excels in removing such parameters or merging the outputs of multiple different pretrained models. However, the former focuses on efficiency rather than performance, while the latter requires several times more computing and storage resources to support inference. In this paper, we set the goal to explicitly improve these incompatible parameters by leveraging the complementary strengths of different models, thereby directly enhancing the models without any additional parameters. Specifically, we propose Compatibility-aware Knowledge Integration (CKI), which consists of Parameter Compatibility Assessment and Parameter Splicing, which are used to evaluate the knowledge content of multiple models and integrate the knowledge into one model, respectively. The integrated model can be used directly for inference or for further fine-tuning. We conduct extensive experiments on various datasets for recommendation and language tasks, and the results show that Compatibility-aware Knowledge Integration can effectively optimize incompatible parameters under multiple tasks and settings to break through the training limit of the original model without increasing the inference cost.

arxiv情報

著者 Zheqi Lv,Keming Ye,Zishu Wei,Qi Tian,Shengyu Zhang,Wenqiao Zhang,Wenjie Wang,Kun Kuang,Tat-Seng Chua,Fei Wu
発行日 2025-03-03 13:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR, cs.LG | Optimize Incompatible Parameters through Compatibility-aware Knowledge Integration はコメントを受け付けていません

Naturally Occurring Feedback is Common, Extractable and Useful

要約

人間のフィードバックデータは、言語モデルを開発する上で非常に重要な要素である。しかし、このフィードバックを収集するにはコストがかかり、結局のところスケーラブルではない。我々は、人間の対話者が互いに自発的に未承諾のフィードバックを提供する方法にヒントを得て、ユーザがチャットモデルと対話する際に自然に含まれるフィードバックを抽出することを提案する。我々は、標準的なコーパスの中で自然に発生するフィードバックの存在を確認するために、手作業で会話に注釈を付け、30%ものチャットが明示的なフィードバックを含むことを発見した。古いデータセットと比較すると、最近の会話データセットでは自然発生フィードバックがより多く見られることがわかり、これまで以上に自然発生フィードバックがフィードバックデータの貴重なリソースとして機能することが示唆される。我々はこのフィードバックを自動的に抽出する方法を提案し、それを1M以上の会話に適用して数十万のフィードバックサンプルを得た。抽出されたフィードバックは有望であり、これを用いた学習はベースラインモデルよりも改善され、人間の嗜好に対するモデルのアライメントを向上させる。

要約(オリジナル)

Human feedback data is a critical component in developing language models. However, collecting this feedback is costly and ultimately not scalable. Inspired by the way human interlocutors provide spontaneous unsolicited feedback to each other, we propose to extract feedback that users naturally include when interacting with chat models. We manually annotated conversations to confirm the presence of naturally occurring feedback in a standard corpus, finding that as much as 30% of the chats include explicit feedback. Comparing to older datasets, we find that naturally occurring feedback is more prevalent in recent conversation datasets, suggesting that more than ever, naturally occurring feedback can serve as a valuable resource for feedback data. We propose a method for automatically extracting this feedback, and apply it to over 1M conversations to obtain hundreds of thousands of feedback samples. The extracted feedback shows promise: training with it improves over baseline models and enhances model alignment to human preferences.

arxiv情報

著者 Shachar Don-Yehiya,Leshem Choshen,Omri Abend
発行日 2025-03-03 13:41:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Naturally Occurring Feedback is Common, Extractable and Useful はコメントを受け付けていません

Can Knowledge Editing Really Correct Hallucinations?

要約

大規模言語モデル(LLM)は、その優れた能力にもかかわらず、生成されたコンテンツに含まれる非事実情報を指す幻覚に悩まされている。一方、知識編集は、LLMにエンコードされた誤った事実知識を修正するための新しい一般的なパラダイムとして開発されており、ゼロからの再トレーニングを回避できるという利点がある。しかし、知識編集のための既存の評価データセットに共通する問題は、編集前にLLMが評価質問に対して実際に幻覚のような答えを生成していることを保証していないことである。異なる手法で編集されたLLMをこのようなデータセットで評価する場合、幻覚を修正するための異なる知識編集手法の有効性を評価するために性能を直接採用することは難しい。従って、根本的な疑問はまだ十分に検証されていない:知識編集は本当にLLMの幻覚を修正できるのか?我々は、現実世界の幻覚を修正する知識編集法を総合的にベンチマークするHalluEditBenchを提案した。まず、9つのドメイン、26のトピック、6,000以上の幻覚からなる膨大な幻覚データセットを厳密に構築する。次に、知識編集手法の性能を、有効性、汎用性、移植性、局所性、頑健性の5つの側面から総合的に評価する。HalluEditBenchを通じて、幻覚訂正における様々な知識編集手法の可能性と限界に関する新たな洞察を提供し、将来の改良を促し、知識編集分野の進歩を促進することができた。

要約(オリジナル)

Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct erroneous factual knowledge encoded in LLMs with the advantage of avoiding retraining from scratch. However, a common issue of existing evaluation datasets for knowledge editing is that they do not ensure that LLMs actually generate hallucinated answers to the evaluation questions before editing. When LLMs are evaluated on such datasets after being edited by different techniques, it is hard to directly adopt the performance to assess the effectiveness of different knowledge editing methods in correcting hallucinations. Thus, the fundamental question remains insufficiently validated: Can knowledge editing really correct hallucinations in LLMs? We proposed HalluEditBench to holistically benchmark knowledge editing methods in correcting real-world hallucinations. First, we rigorously construct a massive hallucination dataset with 9 domains, 26 topics and more than 6,000 hallucinations. Then, we assess the performance of knowledge editing methods in a holistic way on five dimensions including Efficacy, Generalization, Portability, Locality, and Robustness. Through HalluEditBench, we have provided new insights into the potentials and limitations of different knowledge editing methods in correcting hallucinations, which could inspire future improvements and facilitate progress in the field of knowledge editing.

arxiv情報

著者 Baixiang Huang,Canyu Chen,Xiongxiao Xu,Ali Payani,Kai Shu
発行日 2025-03-03 15:37:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Can Knowledge Editing Really Correct Hallucinations? はコメントを受け付けていません

R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning

要約

DeepSeek-R1のような推論を強化した大規模言語モデル(LLM)の最近の躍進にもかかわらず、人間の翻訳者が自然に構造化された多層の推論連鎖思考(CoT)を使用する機械翻訳(MT)に推論時間推論を組み込むことは、まだ十分に研究されていない。既存の方法は、特定のMTサブタスク(文献翻訳など)に合わせた固定CoTを設計するか、人間と一致しないCoTの合成に依存しており、多様な翻訳シナリオへの適応性が制限されている。本論文では、R1-Translator(R1-T1)を紹介する。R1-T1は、6つの一般的なパターンから構成される人間整合CoTを用いた強化学習(RL)により、一般的なMTの推論時間推論を実現する新しいフレームワークである。(1)推論に基づく翻訳をMTのサブタスクにとどまらず、6つの言語と多様なタスク(例えば、法律/医療分野の適応、イディオムの解決)に拡張すること、(2)文脈を意識した言い換えや逆翻訳のような人間のハイブリッド戦略を反映する、専門家がキュレーションした6つのCoTテンプレートを形式化すること、(3)RLによって自己進化するCoTの発見を可能にすること、である。実験の結果、Flores-101テストセットにおいて、11の言語と40の翻訳方向、特にトレーニングで未使用の言語において、安定した翻訳性能の向上が見られた。

要約(オリジナル)

Despite recent breakthroughs in reasoning-enhanced large language models (LLMs) like DeepSeek-R1, incorporating inference-time reasoning into machine translation (MT), where human translators naturally employ structured, multi-layered reasoning chain-of-thoughts (CoTs), is yet underexplored. Existing methods either design a fixed CoT tailored for a specific MT sub-task (e.g., literature translation), or rely on synthesizing CoTs unaligned with humans, limiting their adaptability to diverse translation scenarios. This paper introduces R1-Translator (R1-T1), a novel framework to achieve inference-time reasoning for general MT via reinforcement learning (RL) with human-aligned CoTs comprising six common patterns. Our approach pioneers three innovations: (1) extending reasoning-based translation beyond MT sub-tasks to six languages and diverse tasks (e.g., legal/medical domain adaptation, idiom resolution); (2) formalizing six expert-curated CoT templates that mirror hybrid human strategies like context-aware paraphrasing and back translation; and (3) enabling self-evolving CoT discovery through RL. Experimental results indicate a steady translation performance improvement in 11 languages and 40 translation directions on Flores-101 test set, especially on the languages unseen from training.

arxiv情報

著者 Minggui He,Yilun Liu,Shimin Tao,Yuanchang Luo,Hongyong Zeng,Chang Su,Li Zhang,Hongxia Ma,Daimeng Wei,Weibin Meng,Hao Yang,Boxing Chen,Osamu Yoshie
発行日 2025-03-03 16:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | R1-T1: Fully Incentivizing Translation Capability in LLMs via Reasoning Learning はコメントを受け付けていません

Chain of Draft: Thinking Faster by Writing Less

要約

大規模言語モデル(LLM)は、冗長なステップバイステップの推論を重視する思考連鎖(CoT)プロンプトのようなメカニズムによって、複雑な推論タスクを解く際に目覚ましい性能を発揮してきた。しかし、人間は通常、より効率的な戦略を採用している。すなわち、重要な情報のみを捉えた簡潔な中間思考を起草することである。本研究では、人間の認知プロセスにヒントを得た新しいパラダイムであるChain of Draft (CoD)を提案する。冗長性を減らし、重要な洞察に焦点を当てることで、CoDはわずか7.6%のトークンを使用しながらCoTに匹敵するか、それを上回る精度を実現し、様々な推論タスクにおいてコストと待ち時間を大幅に削減する。我々のコードとデータはhttps://github.com/sileix/chain-of-draft。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance in solving complex reasoning tasks through mechanisms like Chain-of-Thought (CoT) prompting, which emphasizes verbose, step-by-step reasoning. However, humans typically employ a more efficient strategy: drafting concise intermediate thoughts that capture only essential information. In this work, we propose Chain of Draft (CoD), a novel paradigm inspired by human cognitive processes, where LLMs generate minimalistic yet informative intermediate reasoning outputs while solving tasks. By reducing verbosity and focusing on critical insights, CoD matches or surpasses CoT in accuracy while using as little as only 7.6% of the tokens, significantly reducing cost and latency across various reasoning tasks. Our code and data are available at https://github.com/sileix/chain-of-draft.

arxiv情報

著者 Silei Xu,Wenhao Xie,Lingxiao Zhao,Pengcheng He
発行日 2025-03-03 17:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, I.2.7 | Chain of Draft: Thinking Faster by Writing Less はコメントを受け付けていません