要約
中国語の大規模言語モデル (LLM) の常識推論能力を包括的かつ詳細に評価するための初のベンチマークである CHARM を紹介します。このベンチマークは、世界的に知られている常識と中国語特有の常識の両方をカバーします。
私たちは、CHARM 上で 7 つの英語向け LLM と 12 つの中国語向け LLM を評価し、思考連鎖など、LLM の推論能力を向上させるための 5 つの代表的なプロンプト戦略を採用しました。
私たちの調査結果は、LLM の言語指向とタスクのドメインがプロンプト戦略の有効性に影響を与えることを示しており、これは以前の研究結果を充実させます。
私たちは、密接に相互に関連した推論と暗記のタスクを構築したところ、一部のLLMは中国語の常識を暗記するのに苦労し、推論能力に影響を及ぼしている一方、他のLLMは同様の暗記能力にもかかわらず、推論に違いを示していることがわかりました。
また、LLM の暗記に依存しない推論能力を評価し、典型的なエラーを分析しました。
私たちの調査では、LLM の長所と短所を正確に特定し、最適化のための明確な方向性を提供しました。
他分野の研究の参考にもなります。
CHARM は https://github.com/opendatalab/CHARM でリリースされます。
要約(オリジナル)
We introduce CHARM, the first benchmark for comprehensively and in-depth evaluating the commonsense reasoning ability of large language models (LLMs) in Chinese, which covers both globally known and Chinese-specific commonsense. We evaluated 7 English and 12 Chinese-oriented LLMs on CHARM, employing 5 representative prompt strategies for improving LLMs’ reasoning ability, such as Chain-of-Thought. Our findings indicate that the LLM’s language orientation and the task’s domain influence the effectiveness of the prompt strategy, which enriches previous research findings. We built closely-interconnected reasoning and memorization tasks, and found that some LLMs struggle with memorizing Chinese commonsense, affecting their reasoning ability, while others show differences in reasoning despite similar memorization performance. We also evaluated the LLMs’ memorization-independent reasoning abilities and analyzed the typical errors. Our study precisely identified the LLMs’ strengths and weaknesses, providing the clear direction for optimization. It can also serve as a reference for studies in other fields. We will release CHARM at https://github.com/opendatalab/CHARM .
arxiv情報
著者 | Jiaxing Sun,Weiquan Huang,Jiang Wu,Chenya Gu,Wei Li,Songyang Zhang,Hang Yan,Conghui He |
発行日 | 2024-12-10 10:43:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google