要約
人工知能(AI)の急速な進化により、大規模な言語モデル(LLMS)は、ヘルスケア、公衆衛生、工学、科学、農業、教育、芸術、人文科学、数学的推論にまたがるさまざまな分野のフロンティアを再形成しました。
これらの進歩の中で、Deepseekモデルは注目に値する候補として浮上しており、仲間とは一線を画す有望な能力を示しています。
以前の研究では、LLMの比較分析を実施していますが、幅広いLLMSにわたって数学的推論の包括的な評価を提供した人はほとんどいません。
この作業では、このギャップを埋めることを目指しています。詳細な比較研究を実施し、主要なカウンターパートに関連するディープシークモデルの強みと制限に焦点を当てています。
特に、我々の研究は、3つの独立したベンチマークデータセットにまたがる5つの顕著なLLMとともに、2つのDeepSeekモデルの数学的推論パフォーマンスを体系的に評価します。
調査結果は、いくつかの重要な洞察を明らかにしています:1)。
DeepSeek-R1は、3つのデータセットのうち2つで最高の精度を一貫して達成し、強力な数学的推論能力を示しました。
2)。
LLMSの蒸留型バリアントは、同業他社と比較して大幅にパフォーマンスが低く、蒸留技術を使用する際の潜在的な欠点を強調しています。
3)。
応答時間の観点から、Gemini 2.0 Flashは最速の処理速度を実証し、リアルタイムアプリケーションの重要な要因である効率の他のモデルを上回りました。
これらの定量的評価を超えて、アーキテクチャ、トレーニング、および最適化がLLMSの数学的推論にどのように影響するかを掘り下げます。
さらに、私たちの研究は、LLM主導の数学的推論における将来の進歩のための重要な領域を特定することにより、単なるパフォーマンス比較を超えています。
この研究は、LLMSの数学的推論の理解を高め、将来の進歩の基礎を築きます
要約(オリジナル)
With the rapid evolution of Artificial Intelligence (AI), Large Language Models (LLMs) have reshaped the frontiers of various fields, spanning healthcare, public health, engineering, science, agriculture, education, arts, humanities, and mathematical reasoning. Among these advancements, DeepSeek models have emerged as noteworthy contenders, demonstrating promising capabilities that set them apart from their peers. While previous studies have conducted comparative analyses of LLMs, few have delivered a comprehensive evaluation of mathematical reasoning across a broad spectrum of LLMs. In this work, we aim to bridge this gap by conducting an in-depth comparative study, focusing on the strengths and limitations of DeepSeek models in relation to their leading counterparts. In particular, our study systematically evaluates the mathematical reasoning performance of two DeepSeek models alongside five prominent LLMs across three independent benchmark datasets. The findings reveal several key insights: 1). DeepSeek-R1 consistently achieved the highest accuracy on two of the three datasets, demonstrating strong mathematical reasoning capabilities. 2). The distilled variant of LLMs significantly underperformed compared to its peers, highlighting potential drawbacks in using distillation techniques. 3). In terms of response time, Gemini 2.0 Flash demonstrated the fastest processing speed, outperforming other models in efficiency, which is a crucial factor for real-time applications. Beyond these quantitative assessments, we delve into how architecture, training, and optimization impact LLMs’ mathematical reasoning. Moreover, our study goes beyond mere performance comparison by identifying key areas for future advancements in LLM-driven mathematical reasoning. This research enhances our understanding of LLMs’ mathematical reasoning and lays the groundwork for future advancements
arxiv情報
著者 | Afrar Jahin,Arif Hassan Zidan,Yu Bao,Shizhe Liang,Tianming Liu,Wei Zhang |
発行日 | 2025-03-13 17:23:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google