要約
大規模言語モデル (LLM) が算術タスクを実行できる (およびできない) ことは、理論的および実践的な多くの議論の対象となってきました。
我々は、LLM が、n 桁と m 桁の乗算タスクを解くために複合演算が必要であるにもかかわらず、思考連鎖推論を使用せずに、これらのタスクの最初の桁を正確かつ自信を持って予測できることが多いことを示します。
同時に、実際の LLM は、n 桁と m 桁の掛け算の最後の桁を正しく、または自信を持って予測できないことがよくあります。このタスクは、簡単に学習または記憶できる 1 桁と 1 桁の掛け算に相当します。
LLM がすべての正しい上位桁で条件付けされている場合、後者のタスクはよりロバストに解決できることを示します。これにより、平均して、Llama 2 を使用した 5 桁 x 5 桁の乗算タスクにおける正しい最後の桁の信頼度が高まります。
-13B は 230% 以上 (0.13 ~ 0.43)、Mistral-7B は 150% (0.22 ~ 0.55) 減少しました。
要約(オリジナル)
The ability (and inability) of large language models (LLMs) to perform arithmetic tasks has been the subject of much theoretical and practical debate. We show that LLMs are frequently able to correctly and confidently predict the first digit of n-digit by m-digit multiplication tasks without using chain of thought reasoning, despite these tasks require compounding operations to solve. Simultaneously, LLMs in practice often fail to correctly or confidently predict the last digit of an n-digit by m-digit multiplication, a task equivalent to 1-digit by 1-digit multiplication which can be easily learned or memorized. We show that the latter task can be solved more robustly when the LLM is conditioned on all of the correct higher-order digits, which on average increases the confidence of the correct last digit on 5-digit by 5-digit multiplication tasks using Llama 2-13B by over 230% (0.13 to 0.43) and Mistral-7B by 150% (0.22 to 0.55).
arxiv情報
著者 | Andrew Gambardella,Yusuke Iwasawa,Yutaka Matsuo |
発行日 | 2024-06-04 14:34:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google