LLM2: Let Large Language Models Harness System 2 Reasoning

要約

大規模な言語モデル(LLM)は、無数のタスクにわたって印象的な機能を示していますが、時折望ましくない出力を生成します。
これらの制限は、望ましい結果と望ましくない結果を区別するためのメカニズムが本質的に欠けているLLMSの基本的な自己回帰アーキテクチャに根ざしていると仮定します。
人間の認知のデュアルプロセス理論からインスピレーションを得て、LLM2(システム1)とプロセスベースの検証(システム2)を組み合わせた新しいフレームワークであるLLM2を紹介します。
LLM2内では、LLMはもっともらしい候補を生成する責任がありますが、検証者は、望ましい出力と望ましくない出力を区別するためのタイムリーなプロセスベースのフィードバックを提供します。
検証器は、トークン品質探査戦略を通じて生成された合成プロセススーパービジョンデータのペアワイズ比較損失でトレーニングされます。
数学的推論ベンチマークに関する経験的結果は、GSM8KのLLAMA3-1Bの50.3から57.8(+7.5)の精度強化によって例示されるLLM2の有効性を実証します。
さらに、自己整合性と組み合わせると、LLM2は追加の改善を達成し、56.2から70.2(+14.0)に20の精度を高めます。

要約(オリジナル)

Large language models (LLMs) have exhibited impressive capabilities across a myriad of tasks, yet they occasionally yield undesirable outputs. We posit that these limitations are rooted in the foundational autoregressive architecture of LLMs, which inherently lacks mechanisms for differentiating between desirable and undesirable results. Drawing inspiration from the dual-process theory of human cognition, we introduce LLM2, a novel framework that combines an LLM (System 1) with a process-based verifier (System 2). Within LLM2, the LLM is responsible for generating plausible candidates, while the verifier provides timely process-based feedback to distinguish desirable and undesirable outputs. The verifier is trained with a pairwise comparison loss on synthetic process-supervision data generated through our token quality exploration strategy. Empirical results on mathematical reasoning benchmarks substantiate the efficacy of LLM2, exemplified by an accuracy enhancement from 50.3 to 57.8 (+7.5) for Llama3-1B on GSM8K. Furthermore, when combined with self-consistency, LLM2 achieves additional improvements, boosting major@20 accuracy from 56.2 to 70.2 (+14.0).

arxiv情報

著者 Cheng Yang,Chufan Shi,Siheng Li,Bo Shui,Yujiu Yang,Wai Lam
発行日 2025-02-28 13:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM2: Let Large Language Models Harness System 2 Reasoning はコメントを受け付けていません

Extending Dense Passage Retrieval with Temporal Information

要約

時間的認識は、多くの情報検索タスク、特にドキュメントの関連性がクエリの時間コンテキストとの整合に依存するシナリオで重要です。
BM25や密度の高いパッセージ検索(DPR)などの従来の検索方法は、語彙的および意味的な関連性のキャプチャに優れていますが、時間に敏感なクエリに対処するのに不足しています。
このギャップを埋めるために、クエリタイムスタンプとドキュメント日付を表現空間に組み込むことにより、明示的な時間信号を統合する時間的検索モデルを導入します。
私たちのアプローチにより、検索されたパッセージは局所的に関連するだけでなく、ユーザーの意図と一時的に整合することが保証されます。
2つの大規模なベンチマークデータセット、ArchivelqaとChroniclingAmericaqaでアプローチを評価し、標準の検索ベースラインよりも大きなパフォーマンスの向上を達成します。
特に、私たちのモデルは、ArchivalqaでTop-1検索の精度を6.63%、NDCG@10 x 3.79%改善し、ChroniclingAmericaqaのNDCG@10でTop-1検索の精度で9.56%、4.68%をもたらします。
さらに、トレーニング中に時間に敏感なネガティブサンプリング戦略を紹介します。これは、トレーニング中に時間的に関連する無関係なドキュメントを区別するモデルの能力を改善します。
私たちの調査結果は、検索システムで明示的に時間をモデル化することの重要性を強調し、一時的に接地されたクエリを処理するための新しい基準を設定します。

要約(オリジナル)

Temporal awareness is crucial in many information retrieval tasks, particularly in scenarios where the relevance of documents depends on their alignment with the query’s temporal context. Traditional retrieval methods such as BM25 and Dense Passage Retrieval (DPR) excel at capturing lexical and semantic relevance but fall short in addressing time-sensitive queries. To bridge this gap, we introduce the temporal retrieval model that integrates explicit temporal signals by incorporating query timestamps and document dates into the representation space. Our approach ensures that retrieved passages are not only topically relevant but also temporally aligned with user intent. We evaluate our approach on two large-scale benchmark datasets, ArchivalQA and ChroniclingAmericaQA, achieving substantial performance gains over standard retrieval baselines. In particular, our model improves Top-1 retrieval accuracy by 6.63% and NDCG@10 by 3.79% on ArchivalQA, while yielding a 9.56% boost in Top-1 retrieval accuracy and 4.68% in NDCG@10 on ChroniclingAmericaQA. Additionally, we introduce a time-sensitive negative sampling strategy, which refines the model’s ability to distinguish between temporally relevant and irrelevant documents during training. Our findings highlight the importance of explicitly modeling time in retrieval systems and set a new standard for handling temporally grounded queries.

arxiv情報

著者 Abdelrahman Abdallah,Bhawna Piryani,Jonas Wallat,Avishek Anand,Adam Jatowt
発行日 2025-02-28 13:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Extending Dense Passage Retrieval with Temporal Information はコメントを受け付けていません

Training-Free Exponential Context Extension via Cascading KV Cache

要約

トランスのコンテキストウィンドウは、アクティブメモリ用の前のトークンを保存するため、少数のショット学習や条件付き生成などのタスクに不可欠です。
ただし、コンテキストの長さが増加するにつれて、計算コストが二次的に増加し、実際の長いシーケンスシナリオでの大規模な言語モデル(LLM)の展開を妨げます。
いくつかの最近のキー価値キャッシュ(KVキャッシュ)メソッドは線形推論の複雑さを提供しますが、保存されたコンテキストを素朴に管理し、トークンを早期に排除し、貴重な情報を失います。
さらに、それらは最適化されたPrefill/Prompt Stage戦略を欠いており、現実的なコンテキストサイズの2次の注意よりも高いレイテンシをもたらします。
これに応じて、カスケードサブキャッシュバッファーを活用して最も関連性の高いトークンを選択的に保持する新しいメカニズムを導入し、モデルがキャッシュサイズを増やすことなくより長いコンテキスト履歴を維持できるようにします。
私たちのアプローチは、ストリーミングの困惑、質問の回答、本の要約、パスキー検索など、主要なベンチマーク全体の線形キャッシュベースラインを上回り、キャッシュサイズの65Kの4倍後の1Mトークンでより良い検索精度を保持します。
さらに、1Mトークンでのフラッシュの注意と比較した場合、私たちの方法は、Prefill段階のレイテンシを6.8倍に減らします。
これらのイノベーションは、LLMの計算効率を高めるだけでなく、リソース制約の環境での効果的な展開への道を開いて、大幅に低下した大規模でリアルタイムのアプリケーションを可能にします。

要約(オリジナル)

The transformer’s context window is vital for tasks such as few-shot learning and conditional generation as it preserves previous tokens for active memory. However, as the context lengths increase, the computational costs grow quadratically, hindering the deployment of large language models (LLMs) in real-world, long sequence scenarios. Although some recent key-value caching (KV Cache) methods offer linear inference complexity, they naively manage the stored context, prematurely evicting tokens and losing valuable information. Moreover, they lack an optimized prefill/prompt stage strategy, resulting in higher latency than even quadratic attention for realistic context sizes. In response, we introduce a novel mechanism that leverages cascading sub-cache buffers to selectively retain the most relevant tokens, enabling the model to maintain longer context histories without increasing the cache size. Our approach outperforms linear caching baselines across key benchmarks, including streaming perplexity, question answering, book summarization, and passkey retrieval, where it retains better retrieval accuracy at 1M tokens after four doublings of the cache size of 65K. Additionally, our method reduces prefill stage latency by a factor of 6.8 when compared to flash attention on 1M tokens. These innovations not only enhance the computational efficiency of LLMs but also pave the way for their effective deployment in resource-constrained environments, enabling large-scale, real-time applications with significantly reduced latency.

arxiv情報

著者 Jeffrey Willette,Heejun Lee,Youngwan Lee,Myeongjae Jeon,Sung Ju Hwang
発行日 2025-02-28 13:08:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Training-Free Exponential Context Extension via Cascading KV Cache はコメントを受け付けていません

Beyond Words: A Latent Memory Approach to Internal Reasoning in LLMs

要約

大規模な言語モデル(LLMS)の最近の進歩は、自然言語で明示的な推論ステップを生み出すモデルである思考チェーン(COT)パラダイムを普及させています。
このアプローチは解釈可能性を改善し、外部監査を促進しますが、内部推論のための最も計算上効率的な方法を表していない場合があります。
対照的に、人間の認知は、完全な言語化を必要とせずに過去の感覚とエピソードの情報を思い出す暗黙の精神的表現に依存しています。
この論文では、暗黙の精神的表現をLLMSの内部推論プロセスに統合するフレームワークを提案します。
予備的な実験では、暗黙のメモリモジュール(IMM)を単純なGPTモデルに組み込むと、通常のGPTベースラインと比較して最終トレーニング損失が35%から57%の減少が得られることが示されています。
明示的な解釈可能性チャネル(例えば、思考のチェーンデコーダーなど)の追加は、このアプローチ内で実装するのに簡単です。
理論的基礎の概要を説明し、メモリモジュールをスケーリングするための技術的メカニズムを提案し、これらのアイデアが明示的な監査可能性のためのオプションの将来の拡張機能により、より効率的で堅牢な推論にどのようにつながるかを議論します。

要約(オリジナル)

Recent advances in large language models (LLMs) have popularized the chain-of-thought (CoT) paradigm, in which models produce explicit reasoning steps in natural language. Although this approach improves interpretability and facilitates external auditing, it may not represent the most computationally efficient method for internal reasoning. In contrast, human cognition relies on implicit mental representations that recall past sensory and episodic information without requiring complete verbalization. In this paper, we propose a framework that integrates implicit mental representations into the internal reasoning processes of LLMs. Preliminary experiments indicate that incorporating an Implicit Memory Module (IMM) into a simple GPT model yields a reduction of between 35% and 57% in final training loss compared to a regular GPT baseline. The addition of an explicit interpretability channel (e.g., a chain-of-thought decoder) is straightforward to implement within this approach. We outline theoretical foundations, propose technical mechanisms to scale the memory module, and discuss how these ideas may lead to more efficient and robust reasoning, with optional future extensions for explicit auditability.

arxiv情報

著者 José I. Orlicki
発行日 2025-02-28 13:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Beyond Words: A Latent Memory Approach to Internal Reasoning in LLMs はコメントを受け付けていません

SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models

要約

大規模な言語モデル(LLM)は、さまざまなアプリケーションでの顕著なパフォーマンスのために広く採用されており、多数の多様なモデルの加速開発を促進しています。
ただし、これらの個々のLLMは、固有のトレーニングバイアス、モデルサイズの制約、およびトレーニング前のデータセットの品質または多様性による複雑なタスクの一般化とパフォーマンスの制限を示しています。
有望な方向性は、LLMの多様な能力を効率的に活用して、これらの個々の制限を克服することです。
これらの制限に対処するために、SelectLLMと呼ばれる新しいLLM選択アルゴリズムを導入します。これは、大規模なプールからLLMSの最も適切なサブセットに入力クエリを効率的に向け、選択したモデルがまとめて正確な応答を提供するようにします。
SelectLLMは、LLMSの最適、クエリ対応、および軽量サブセットを選択する際の分類器の予測と信頼性スコアに基づいて、マルチラベル分類器とポリシーを採用しています。
私たちの調査結果は、提案されたモデルが既存のアンサンブルベースのベースラインよりも優れており、効率を維持しながら、同様にサイズのトップパフォーマンスのLLMで競争力のあるパフォーマンスを達成することを示しています。
具体的には、最高のパフォーマンスのベースラインと比較して、GSM8Kで13%、MMLUで70%である2つの挑戦的な推論ベンチマークで推論レイテンシの大幅な減少を達成します。
また、LLMSを備えたOracleによって理論上の上限を確立し、OracleとSelectLLMのパフォーマンスギャップを理解するために、詳細な言語分析を実行します。

要約(オリジナル)

Large language models (LLMs) have been widely adopted due to their remarkable performance across various applications, driving the accelerated development of a large number of diverse models. However, these individual LLMs show limitations in generalization and performance on complex tasks due to inherent training biases, model size constraints, and the quality or diversity of pre-training datasets. A promising direction is to efficiently harness the diverse capabilities of LLMs to overcome these individual limitations. To address these limitations, we introduce a novel LLM selection algorithm called SelectLLM, which efficiently directs input queries to the most suitable subset of LLMs from a large pool, ensuring that the selected models collectively provide accurate responses. SelectLLM employs a multi-label classifier and policy based on the classifier’s predictions and confidence scores in selecting an optimal, query-aware, and lightweight subset of LLMs. Our findings indicate that the proposed model outperforms existing ensemble-based baselines and achieves competitive performance with similarly sized top-performing LLMs while maintaining efficiency. Specifically, it achieves a huge reduction in inference latency on two challenging reasoning benchmarks: 13% on GSM8K and 70% on MMLU, compared to the top-performing baseline. Also, we establish a theoretical upper bound by an Oracle with LLMs and perform an in-depth linguistic analysis to understand the performance gap between the Oracle and SelectLLM.

arxiv情報

著者 Kaushal Kumar Maurya,KV Aditya Srivatsa,Ekaterina Kochmar
発行日 2025-02-28 13:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models はコメントを受け付けていません

ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation

要約

大規模なマルチモーダルモデル(LMM)の視覚的に接地されたコード生成機能を評価することを目的とした新しいベンチマークであるChartmimを紹介します。
Chartmimimは、情報集約型の視覚チャートとテキスト命令を入力として利用するため、LMMがチャートレンダリングに対応するコードを生成する必要があります。
ChartMimicには、さまざまなドメイン(物理学、コンピューターサイエンス、経済学など)の科学論文に見られる本物のチャートユースケースを表す4,800の人間キュレーション(図、指導、コード)トリプレットが含まれています。
これらのチャートは、18の通常のタイプと4つの高度なタイプに及び、201のサブカテゴリに多様化します。
さらに、出力コードとレンダリングされたチャートの自動評価を提供するために、マルチレベルの評価メトリックを提案します。
既存のコード生成ベンチマークとは異なり、CHARTMIMICは、視覚的理解、コード生成、およびクロスモーダル推論を含む、認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いています。
3ドルの独自モデルと14のオープンウェイトモデルの評価は、Chartmimicによってもたらされる実質的な課題を強調しています。
高度なGPT-4OであるInternvl2-llama3-76bでさえ、それぞれ82.2および61.6の直接的な模倣およびカスタマイズされた模倣タスクにわたって平均スコアを達成し、改善の重要な余地を示しています。
ChartmimicがLMMの開発を促し、人工的な一般情報の追求を進めると予想しています。

要約(オリジナル)

We introduce a new benchmark, ChartMimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models (LMMs). ChartMimic utilizes information-intensive visual charts and textual instructions as inputs, requiring LMMs to generate the corresponding code for chart rendering. ChartMimic includes 4,800 human-curated (figure, instruction, code) triplets, which represent the authentic chart use cases found in scientific papers across various domains (e.g., Physics, Computer Science, Economics, etc). These charts span 18 regular types and 4 advanced types, diversifying into 201 subcategories. Furthermore, we propose multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts. Unlike existing code generation benchmarks, ChartMimic places emphasis on evaluating LMMs’ capacity to harmonize a blend of cognitive capabilities, encompassing visual understanding, code generation, and cross-modal reasoning. The evaluation of $3$ proprietary models and 14 open-weight models highlights the substantial challenges posed by ChartMimic. Even the advanced GPT-4o, InternVL2-Llama3-76B only achieved an average score across Direct Mimic and Customized Mimic tasks of 82.2 and 61.6, respectively, indicating significant room for improvement. We anticipate that ChartMimic will inspire the development of LMMs, advancing the pursuit of artificial general intelligence.

arxiv情報

著者 Cheng Yang,Chufan Shi,Yaxin Liu,Bo Shui,Junjie Wang,Mohan Jing,Linran Xu,Xinyu Zhu,Siheng Li,Yuxiang Zhang,Gongye Liu,Xiaomei Nie,Deng Cai,Yujiu Yang
発行日 2025-02-28 13:33:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SE | ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation はコメントを受け付けていません

Pragmatic Reasoning improves LLM Code Generation

要約

大規模な言語モデル(LLM)は、自然言語(NL)の命令をプログラムコードに翻訳する際に印象的な可能性を示しています。
ただし、ユーザーの命令には固有のあいまいさが含まれることが多く、LLMがユーザーの真の意図を正確に反映するコードを生成することが困難になります。
この課題に対処するために、研究者はプログラムコードの複数の候補を作成し、それらを再検討して最良のソリューションを特定することを提案しました。
この論文では、LLMSをユーザーの意図に関するより包括的な実用的な推論に導くために設計された、合理的なスピーチ法(RSA)フレームワークに基づいて構築された新しいコード候補の再ランキングメカニズムであるCodersaを提案します。
人気のあるコード生成データセットで最新のLLMSの1つを使用してCodersaを評価します。
私たちの実験結果は、Codersaが一貫して一般的なベースラインを上回り、ほとんどの場合、最先端のアプローチを上回り、堅牢な全体的なパフォーマンスを示していることを示しています。
これらの調査結果は、実用的な推論をコード候補の再ランキングに統合することの有効性を強調し、LLMSのコード生成品質を向上させるための有望な方向性を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive potential in translating natural language (NL) instructions into program code. However, user instructions often contain inherent ambiguities, making it challenging for LLMs to generate code that accurately reflects the user’s true intent. To address this challenge, researchers have proposed to produce multiple candidates of the program code and then rerank them to identify the best solution. In this paper, we propose CodeRSA, a novel code candidate reranking mechanism built upon the Rational Speech Act (RSA) framework, designed to guide LLMs toward more comprehensive pragmatic reasoning about user intent. We evaluate CodeRSA using one of the latest LLMs on a popular code generation dataset. Our experiment results show that CodeRSA consistently outperforms common baselines, surpasses the state-of-the-art approach in most cases, and demonstrates robust overall performance. These findings underscore the effectiveness of integrating pragmatic reasoning into code candidate reranking, offering a promising direction for enhancing code generation quality in LLMs.

arxiv情報

著者 Zhuchen Cao,Sven Apel,Adish Singla,Vera Demberg
発行日 2025-02-28 13:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | Pragmatic Reasoning improves LLM Code Generation はコメントを受け付けていません

Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

要約

人間が超人的モデルの弱い監督者として機能する超整合は、大規模な言語モデル(LLM)の急速な発展において重要な問題になっています。
最近の研究は、弱いモデルを使用して強力なモデルを監督することでこの問題を事前に研究しており、弱く監視されている強力な学生が、アラインメントターゲットに向かって弱い教師を一貫して上回り、弱い一般化現象につながることを発見しました。
しかし、このような有望な現象の背後にあるのは、弱いモデルで知られている領域でよく整列しているが弱いモデルでは不整合の行動を生成することで弱いモデルを欺くという弱いモデルが弱いモデルを欺くかどうかにかかわらず、このような有望な現象の背後にあるのではないかと心配しています。
このセキュリティの問題を特定のが現実的な多目的アライメントケースで調査するための最初の一歩を踏み出します。ここでは、互いに矛盾するいくつかのアライメントターゲットが存在する可能性があります(例:V.S.無害)。
そのような場合、強力なモデルは、別の次元のより高い報酬と引き換えに、あるアライメントディメンション内の弱いモデルには知られているが、彼らに知られている領域で意図的に間違いを犯す可能性があるかどうかを調査することを目指しています。
報酬モデリングと優先最適化シナリオの両方で広範な実験を通じて、(1)すべての設定に弱い欺ception現象が存在することがわかります。
(2)弱いモデルと強いモデルの間の能力ギャップが増加するにつれて、欺ceptionは激化します。
(3)中間モデルを使用したブートストラップは、その有効性が限られたままですが、ある程度欺ceptionを軽減できます。
私たちの仕事は、超整列の真の信頼性にもっと注意を払う緊急の必要性を強調しています。

要約(オリジナル)

Superalignment, where humans act as weak supervisors for superhuman models, has become a crucial problem with the rapid development of Large Language Models (LLMs). Recent work has preliminarily studied this problem by using weak models to supervise strong models, and discovered that weakly supervised strong students can consistently outperform weak teachers towards the alignment target, leading to a weak-to-strong generalization phenomenon. However, we are concerned that behind such a promising phenomenon, whether there exists an issue of weak-to-strong deception, where strong models deceive weak models by exhibiting well-aligned in areas known to weak models but producing misaligned behaviors in cases weak models do not know. We take an initial step towards exploring this security issue in a specific but realistic multi-objective alignment case, where there may be some alignment targets conflicting with each other (e.g., helpfulness v.s. harmlessness). We aim to explore whether, in such cases, strong models might deliberately make mistakes in areas known to them but unknown to weak models within one alignment dimension, in exchange for a higher reward in another dimension. Through extensive experiments in both the reward modeling and preference optimization scenarios, we find: (1) The weak-to-strong deception phenomenon exists across all settings. (2) The deception intensifies as the capability gap between weak and strong models increases. (3) Bootstrapping with an intermediate model can mitigate the deception to some extent, though its effectiveness remains limited. Our work highlights the urgent need to pay more attention to the true reliability of superalignment.

arxiv情報

著者 Wenkai Yang,Shiqi Shen,Guangyao Shen,Wei Yao,Yong Liu,Zhi Gong,Yankai Lin,Ji-Rong Wen
発行日 2025-02-28 13:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization はコメントを受け付けていません

CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation

要約

チェーンオブシュート(COT)は、自然言語で段階的な推論を可能にすることにより、大規模な言語モデル(LLM)を強化します。
ただし、言語空間は推論のために最適ではない場合があります。
暗黙のCOTメソッドは、明示的なCOTトークンなしで推論を有効にしようとしますが、タスクのパフォーマンスで明示的なCOTメソッドに常に遅れをとっています。
コットを連続空間に蒸留する新しいフレームワークであるCODI(自己辞任による連続チェーンの考え方)を提案します。そこでは、共有モデルが教師と生徒の両方として機能し、最終的な回答を生成するトークンで隠されたアクティベーションを調整しながら、明示的かつ暗黙的なCOTを共同で学習します。
CODIは、GSM8Kでの明示的なCOTのパフォーマンスを3.1倍の圧縮を達成し、以前の最先端を28.2%上回る精度を上回る最初の暗黙のCOTメソッドです。
さらに、CODIは、より複雑なCOTデータセットに対するスケーラビリティ、堅牢性、および一般化可能性を示しています。
さらに、CODIは連続思考を解読し、推論プロセスを透明にすることにより、解釈性を保持します。
私たちの調査結果は、より効率的であるだけでなく、明示的なCOTの強力な代替品として暗黙的なCOTを確立しています。

要約(オリジナル)

Chain-of-Thought (CoT) enhances Large Language Models (LLMs) by enabling step-by-step reasoning in natural language. However, the language space may be suboptimal for reasoning. While implicit CoT methods attempt to enable reasoning without explicit CoT tokens, they have consistently lagged behind explicit CoT method in task performance. We propose CODI (Continuous Chain-of-Thought via Self-Distillation), a novel framework that distills CoT into a continuous space, where a shared model acts as both teacher and student, jointly learning explicit and implicit CoT while aligning their hidden activation on the token generating the final answer. CODI is the first implicit CoT method to match explicit CoT’s performance on GSM8k while achieving 3.1x compression, surpassing the previous state-of-the-art by 28.2% in accuracy. Furthermore, CODI demonstrates scalability, robustness, and generalizability to more complex CoT datasets. Additionally, CODI retains interpretability by decoding its continuous thoughts, making its reasoning process transparent. Our findings establish implicit CoT as not only a more efficient but a powerful alternative to explicit CoT.

arxiv情報

著者 Zhenyi Shen,Hanqi Yan,Linhai Zhang,Zhanghao Hu,Yali Du,Yulan He
発行日 2025-02-28 14:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation はコメントを受け付けていません

Kanana: Compute-efficient Bilingual Language Models

要約

韓国語でのパフォーマンスを超え、英語での競争力のあるパフォーマンスを示す一連のバイリンガル言語モデルであるKananaを紹介します。
カナナの計算コストは​​、同様のサイズの最先端モデルの計算コストよりも大幅に低いです。
このレポートでは、高品質のデータフィルタリング、段階的なトレーニング、深さのアップスケール、剪定と蒸留など、計算効率が高いが競争力のあるモデルを実現するために、事前トレーニング中に採用された手法の詳細を詳述しています。
さらに、このレポートは、カナナモデルのトレーニング後に利用された方法論の概要を説明し、ユーザーとのシームレスな相互作用の能力を高めることを目的とした監視された微調整と好みの最適化を網羅しています。
最後に、このレポートは、埋め込み、検索拡張生成、関数呼び出しなど、特定のシナリオへの言語モデルの適応に使用されるもっともらしいアプローチについて詳しく説明しています。
Kananaモデルシリーズは、韓国語モデルに関する研究を促進するために公開されている2.1bモデル(基本、指示、埋め込み)を備えた2.1bから32.5bのパラメーターに及びます。

要約(オリジナル)

We introduce Kanana, a series of bilingual language models that demonstrate exceeding performance in Korean and competitive performance in English. The computational cost of Kanana is significantly lower than that of state-of-the-art models of similar size. The report details the techniques employed during pre-training to achieve compute-efficient yet competitive models, including high quality data filtering, staged pre-training, depth up-scaling, and pruning and distillation. Furthermore, the report outlines the methodologies utilized during the post-training of the Kanana models, encompassing supervised fine-tuning and preference optimization, aimed at enhancing their capability for seamless interaction with users. Lastly, the report elaborates on plausible approaches used for language model adaptation to specific scenarios, such as embedding, retrieval augmented generation, and function calling. The Kanana model series spans from 2.1B to 32.5B parameters with 2.1B models (base, instruct, embedding) publicly released to promote research on Korean language models.

arxiv情報

著者 Kanana LLM Team,Yunju Bak,Hojin Lee,Minho Ryu,Jiyeon Ham,Seungjae Jung,Daniel Wontae Nam,Taegyeong Eo,Donghun Lee,Doohae Jung,Boseop Kim,Nayeon Kim,Jaesun Park,Hyunho Kim,Hyunwoong Ko,Changmin Lee,Kyoung-Woon On,Seulye Baeg,Junrae Cho,Sunghee Jung,Jieun Kang,EungGyun Kim,Eunhwa Kim,Byeongil Ko,Daniel Lee,Minchul Lee,Miok Lee,Shinbok Lee,Gaeun Seo
発行日 2025-02-28 14:23:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Kanana: Compute-efficient Bilingual Language Models はコメントを受け付けていません