要約
CoT (Chain-of-Thought) は、LLM の推論問題を解決する方法です。
最近、LLM の CoT 機能を向上させるための研究が数多く行われています。
この研究では、微調整とアライメント学習のための llama2-13B PLM に基づく LLM である Olapa-MCoT も提案しました。
アライメントトレーニングでは、SimRRHFアルゴリズムと不正データ再学習を提案し、主にOlapa-MCoTの中国語の数学的推論能力の最適化に焦点を当てました。
この実験では、中国の数学的推論の精度が最大 50%、llama2-13B と比較して 36% 向上するという重要な結果が得られました。
また、英語の推論能力の精度も4%近く向上しました。
要約(オリジナル)
CoT (Chain-of-Thought) is a way to solve reasoning problems for LLMs . Recently, many researches appear for improving the CoT capability of LLMs. In this work, we also proposed Olapa-MCoT, which is a LLMs based on llama2-13B PLM for finetuning and alignment learning. During the alignment training, we proposed the SimRRHF algorithm and Incorrect Data Relearning and mainly focused on optimizing the Chinese mathematical reasoning ability of Olapa-MCoT. The experiment achieved significant results, with the accuracy of Chinese mathematical reasoning up to 50%, 36% rise compared to llama2-13B. In addition, the accuracy of English reasoning ability also increased by nearly 4%.
arxiv情報
| 著者 | Shaojie Zhu,Zhaobin Wang,Chengxiang Zhuo,Hui Lu,Bo Hu,Zang Li |
| 発行日 | 2023-12-29 09:33:35+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google