要約
最近の大きな推論モデルは、推論を学ぶことにより、大規模な言語モデルの推論能力を大幅に改善し、複雑なタスクの解決において有望なパフォーマンスを示しています。
LRMSは、回答とともに推論の軌跡を明示的に生成することにより、複雑な推論を必要とするタスクを解決します。
それにもかかわらず、そのような出力の答えの品質を判断することは容易ではありません。なぜなら、答えの正しさを考慮するだけでは十分ではなく、推論の軌跡の部分の健全性も重要であるからです。
論理的には、推論部分の健全性が悪い場合、答えが正しいとしても、派生した答えの信頼は低くなければなりません。
既存の方法は、推論の部分を考慮して全体的な出力の回答を共同で評価することを検討しましたが、推論と結論の回答との因果関係が適切に反映できないため、それらの能力はまだ満足のいくものではありません。
この論文では、古典的なメカニクスに触発されて、COTキネティクスのエネルギー方程式を確立するための新しいアプローチを紹介します。
具体的には、COT-Kinetics Energy方程式は、機械的フィールドで支配されている粒子速度論的ダイナミクスのように、LRM内部変圧器層によって調節されるトークン状態変換プロセスを定式化します。
私たちのCot-Kinetics Energyは、スカラースコアを割り当てて、推論段階の健全性を具体的に評価し、派生した答えが評価された推論にどれだけ自信を持っているかを伝えます。
そのため、LRMの全体的な出力品質は、粗い判断(たとえば、正しいまたは正しくない)ではなく、正確に測定できます。
要約(オリジナル)
Recent Large Reasoning Models significantly improve the reasoning ability of Large Language Models by learning to reason, exhibiting the promising performance in solving complex tasks. LRMs solve tasks that require complex reasoning by explicitly generating reasoning trajectories together with answers. Nevertheless, judging the quality of such an output answer is not easy because only considering the correctness of the answer is not enough and the soundness of the reasoning trajectory part matters as well. Logically, if the soundness of the reasoning part is poor, even if the answer is correct, the confidence of the derived answer should be low. Existing methods did consider jointly assessing the overall output answer by taking into account the reasoning part, however, their capability is still not satisfactory as the causal relationship of the reasoning to the concluded answer cannot properly reflected. In this paper, inspired by classical mechanics, we present a novel approach towards establishing a CoT-Kinetics energy equation. Specifically, our CoT-Kinetics energy equation formulates the token state transformation process, which is regulated by LRM internal transformer layers, as like a particle kinetics dynamics governed in a mechanical field. Our CoT-Kinetics energy assigns a scalar score to evaluate specifically the soundness of the reasoning phase, telling how confident the derived answer could be given the evaluated reasoning. As such, the LRM’s overall output quality can be accurately measured, rather than a coarse judgment (e.g., correct or incorrect) anymore.
arxiv情報
| 著者 | Jinhe Bi,Danqi Yan,Yifan Wang,Wenke Huang,Haokun Chen,Guancheng Wan,Mang Ye,Xun Xiao,Hinrich Schuetze,Volker Tresp,Yunpu Ma | 
| 発行日 | 2025-05-19 17:44:26+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
