ArthModel: Enhance Arithmetic Skills to Large Language Model

要約

ChatGPT の大成功により、大規模な言語モデルの研究がますます人気になってきました。
ただし、このモデルには、算術解法の毒性やプールのパフォーマンスなど、いくつかの制限があります。
一方、LLM にはまだ活用されていない潜在的な能力がいくつかある可能性があります。
この論文では、LLM の算術能力を強化するために別の方法を選択します。
算術問題に関連する後置式を生成するように LLM をトレーニングし、それを事前トレーニングされた小さなモデルに組み込むことを提案します。
さらに、この小さなモデルは、トークンの埋め込みを実際の密な数値に変換し、深層学習プラットフォームのネイティブ関数を呼び出して正しい答えを取得します。
最終結果を生成するには、小規模モデルによる結果出力を LLM に追加するためのプロンプト インジェクションを提案します。
この研究では、言語モデルのさまざまな考え方、トレーニング、使用方法を提供します。
コードとモデルは \url{https://github.com/eteced/arithmetic_finetuning_v1} でリリースされます。

要約(オリジナル)

With the great success of ChatGPT, the research of large language models has become increasingly popular. However, the models have several limitations, such as toxicity and pool performance of arithmetic solving. Meanwhile, LLM may have some potential abilities that have yet to be exploited. In this paper, we choose a different way to enhance the arithmetic ability of LLM. We propose to train LLM to generate a postfix expression related to the arithmetic problem and incorporate it with small pretrained models. Moreover, this small model transfers the token embeddings into real dense numbers and invokes native functions of a deep learning platform to get the correct answer. To generate the final result, we propose prompt injection for adding the result outputs by the small model to LLM. This work provides different ways of thinking, training and using a language model. The codes and models will be released at \url{https://github.com/eteced/arithmetic_finetuning_v1}.

arxiv情報

著者 Yingdi Guo
発行日 2023-11-30 15:06:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク