要約
この研究では、数学データセットから導き出された30の挑戦的な数学的問題に関するDeepseek R1言語モデルのパフォーマンスを調査します。
以前の研究とは異なり、この研究では、トークンベースの推論への依存で知られているDeepSeek R1のアーキテクチャがマルチステッププロセスを通じて正確なソリューションを実現できるかどうかを調査するための時間制限を削除します。
この研究では、DeepSeek R1と他の4つのモデル(Gemini-1.5-Flash-8B、GPT-4O-MINI-2024-07-18、llama3.1:8b、およびMistral-8b-latest)を11の温度設定で比較します。
結果は、DeepSeek R1がこれらの複雑な問題に対して優れた精度を達成するが、他のモデルよりも大幅に多くのトークンを生成し、トークン集約的なアプローチを確認することを示しています。
調査結果は、大規模な言語モデルでの数学的問題解決の精度と効率性のトレードオフを強調しています。ディープセックR1は精度に優れていますが、広範なトークン生成への依存は、迅速な応答を必要とするアプリケーションに最適ではないかもしれません。
この調査では、LLMを選択する際にタスク固有の要件を考慮することの重要性を強調し、パフォーマンスの最適化における温度設定の役割を強調しています。
要約(オリジナル)
This study investigates the performance of the DeepSeek R1 language model on 30 challenging mathematical problems derived from the MATH dataset, problems that previously proved unsolvable by other models under time constraints. Unlike prior work, this research removes time limitations to explore whether DeepSeek R1’s architecture, known for its reliance on token-based reasoning, can achieve accurate solutions through a multi-step process. The study compares DeepSeek R1 with four other models (gemini-1.5-flash-8b, gpt-4o-mini-2024-07-18, llama3.1:8b, and mistral-8b-latest) across 11 temperature settings. Results demonstrate that DeepSeek R1 achieves superior accuracy on these complex problems but generates significantly more tokens than other models, confirming its token-intensive approach. The findings highlight a trade-off between accuracy and efficiency in mathematical problem-solving with large language models: while DeepSeek R1 excels in accuracy, its reliance on extensive token generation may not be optimal for applications requiring rapid responses. The study underscores the importance of considering task-specific requirements when selecting an LLM and emphasizes the role of temperature settings in optimizing performance.
arxiv情報
著者 | Evgenii Evstafev |
発行日 | 2025-01-30 18:45:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google