NumeroLogic: Number Encoding for Enhanced LLMs’ Numerical Reasoning

要約

言語モデルは、数値データの処理と算術演算の実行に苦労します。
私たちは、この制限の一部は、非直観的なテキスト数値表現に起因している可能性があると仮説を立てています。
因果的言語モデルによって数字が読み取られるか生成される場合、数字全体が処理されるまでその位の値 (例: 千の位と百の位) はわかりません。
この問題に対処するために、各数値の前に桁数を含めることによって、数値の表現方法を簡単に調整することを提案します。
たとえば、「42」の代わりに「{2:42}」を新しい形式として使用することをお勧めします。
NumeroLogic と呼ばれるこのアプローチは、思考連鎖 (CoT) として機能することで、数値生成にさらなる利点をもたらします。
モデルに最初に桁数を考慮するよう要求することで、実際の数値を生成する前の推論プロセスが強化されます。
NumeroLogic フォーマットの有効性を実証するために、算術タスクを使用します。
さらに、NumeroLogic の一般的な自然言語モデリングへの適用性を実証し、MMLU ベンチマークでの言語理解パフォーマンスを向上させます。

要約(オリジナル)

Language models struggle with handling numerical data and performing arithmetic operations. We hypothesize that this limitation can be partially attributed to non-intuitive textual numbers representation. When a digit is read or generated by a causal language model it does not know its place value (e.g. thousands vs. hundreds) until the entire number is processed. To address this issue, we propose a simple adjustment to how numbers are represented by including the count of digits before each number. For instance, instead of ’42’, we suggest using ‘{2:42}’ as the new format. This approach, which we term NumeroLogic, offers an added advantage in number generation by serving as a Chain of Thought (CoT). By requiring the model to consider the number of digits first, it enhances the reasoning process before generating the actual number. We use arithmetic tasks to demonstrate the effectiveness of the NumeroLogic formatting. We further demonstrate NumeroLogic applicability to general natural language modeling, improving language understanding performance in the MMLU benchmark.

arxiv情報

著者 Eli Schwartz,Leshem Choshen,Joseph Shtok,Sivan Doveh,Leonid Karlinsky,Assaf Arbelle
発行日 2024-09-26 09:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク