OccamLLM: Fast and Exact Language Model Arithmetic in a Single Step

要約

テキスト生成と推論における著しい進歩にもかかわらず、大規模言語モデル(LLM)は複雑な算術演算を正確に実行するという課題に依然として直面している。言語モデルシステムでは、正確な計算を実現するために、LLMが算術演算のコードを生成できるようにしていることが多い。しかし、このアプローチでは速度と安全性が損なわれ、微調整によって言語モデルが以前の能力を失う危険性がある。我々は、単一の自己回帰ステップで正確な演算を可能にするフレームワークを提案し、より高速で、より安全で、より解釈可能な演算機能付きLLMシステムを提供する。LLMの隠れ状態を利用して、算術演算を行う記号的アーキテクチャを制御する。Llama 3 with OccamNet as a symbolic model (OccamLlama)を用いた我々の実装は、単一の算術演算($+,-,˶times,˶div,˶sin{},˶cos{},˶log{},˶exp{},˶sqrt{}$)において100%の精度を達成し、コードインタプリタの有無に関わらずGPT 4oを凌駕した。さらに、OccamLlamaは様々な数学的問題解決のベンチマークにおいて、GPT 4oをコードインタプリタあり/なしで平均的に上回り、OccamLLMが算術計算タスクにおいて、はるかに大きなモデルをも凌駕することができることを示しています。まもなくコードを公開する予定である。

要約(オリジナル)

Despite significant advancements in text generation and reasoning, Large Language Models (LLMs) still face challenges in accurately performing complex arithmetic operations. Language model systems often enable LLMs to generate code for arithmetic operations to achieve accurate calculations. However, this approach compromises speed and security, and fine-tuning risks the language model losing prior capabilities. We propose a framework that enables exact arithmetic in a single autoregressive step, providing faster, more secure, and more interpretable LLM systems with arithmetic capabilities. We use the hidden states of a LLM to control a symbolic architecture that performs arithmetic. Our implementation using Llama 3 with OccamNet as a symbolic model (OccamLlama) achieves 100\% accuracy on single arithmetic operations ($+,-,\times,\div,\sin{},\cos{},\log{},\exp{},\sqrt{}$), outperforming GPT 4o with and without a code interpreter. Furthermore, OccamLlama outperforms GPT 4o with and without a code interpreter on average across a range of mathematical problem solving benchmarks, demonstrating that OccamLLMs can excel in arithmetic tasks, even surpassing much larger models. We will make our code public shortly.

arxiv情報

著者 Owen Dugan,Donato Manuel Jimenez Beneto,Charlotte Loh,Zhuo Chen,Rumen Dangovski,Marin Soljačić
発行日 2024-09-03 02:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク