Enhancing Quantitative Reasoning Skills of Large Language Models through Dimension Perception

要約

量は、エンティティの大きさの特性を特徴付けるテキストの明確かつ重要な構成要素であり、自然言語の理解、特に推論タスクに正確な視点を提供します。
近年、大規模言語モデル (LLM) に基づく推論タスクに関する研究が急増していますが、そのほとんどは数値のみに焦点を当てており、その重要性にもかかわらず、単位を伴う数量の次元概念が無視されています。
私たちは、次元の概念は数量を正確に理解するために不可欠であり、LLM が定量的推論を実行するために非常に重要であると主張します。
ただし、寸法の知識と数量関連のベンチマークが不足しているため、LLM のパフォーマンスが低下しています。
したがって、次元認識に基づいて言語モデルの定量的推論能力を強化するためのフレームワークを提案します。
まず、この分野の知識ギャップに対処するために、次元単位知識ベース (DimUnitKB) を構築します。
私たちは、LLM の寸法認識スキルを調査および強化するために、3 つのカテゴリの 7 つのタスクで構成されるベンチマーク DimEval を提案します。
私たちの手法の有効性を評価するために、定量的推論タスクを提案し、実験を実施します。
実験結果は、私たちの次元認識方法が GPT-4 と比較して定量的推論タスクの精度を劇的に向上させる (43.55%->50.67%) ことを示しています。

要約(オリジナル)

Quantities are distinct and critical components of texts that characterize the magnitude properties of entities, providing a precise perspective for the understanding of natural language, especially for reasoning tasks. In recent years, there has been a flurry of research on reasoning tasks based on large language models (LLMs), most of which solely focus on numerical values, neglecting the dimensional concept of quantities with units despite its importance. We argue that the concept of dimension is essential for precisely understanding quantities and of great significance for LLMs to perform quantitative reasoning. However, the lack of dimension knowledge and quantity-related benchmarks has resulted in low performance of LLMs. Hence, we present a framework to enhance the quantitative reasoning ability of language models based on dimension perception. We first construct a dimensional unit knowledge base (DimUnitKB) to address the knowledge gap in this area. We propose a benchmark DimEval consisting of seven tasks of three categories to probe and enhance the dimension perception skills of LLMs. To evaluate the effectiveness of our methods, we propose a quantitative reasoning task and conduct experiments. The experimental results show that our dimension perception method dramatically improves accuracy (43.55%->50.67%) on quantitative reasoning tasks compared to GPT-4.

arxiv情報

著者 Yuncheng Huang,Qianyu He,Jiaqing Liang,Sihang Jiang,Yanghua Xiao,Yunwen Chen
発行日 2023-12-29 09:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク