要約
Chain-Of-Thought(COT)は、最終回答を生成する前に中間推論ステップを必要とするLLMタスクに取り組むための堅牢なアプローチです。
このホワイトペーパーでは、グループの相対的な政策最適化に基づいた微調整戦略に触発されたベトナムの推論モデルであるGreenmind-Medium-14B-R1を紹介します。
また、高品質のベトナム合成された推論データセットを活用し、2つの報酬関数を設計して、この手法の主な制限に取り組むことに取り組んでいます。(i)トークンのサンプリング中に偏った言語キャラクターの存在を明示的に検出し、(ii)、発電されたコンテンツが最終的に測定されないように、文化器ベースのモデルを確実にするために、文字器ベースのモデルを削除します。
VLSP 2023チャレンジのベトナムデータセットの実験結果は、モデルが以前の作業よりも優れており、その応答の言語的一貫性を高めることを示しています。
さらに、評価をSeaexam-A多言語の多重選択データセットに拡張し、少数のショットプロンプトテクニックと比較して推論方法の有効性を示しています。
要約(オリジナル)
Chain-of-Thought (CoT) is a robust approach for tackling LLM tasks that require intermediate reasoning steps prior to generating a final answer. In this paper, we present GreenMind-Medium-14B-R1, the Vietnamese reasoning model inspired by the finetuning strategy based on Group Relative Policy Optimization. We also leverage a high-quality Vietnamese synthesized reasoning dataset and design two reward functions to tackle the main limitations of this technique: (i) language mixing, where we explicitly detect the presence of biased language characters during the process of sampling tokens, and (ii) we leverage Sentence Transformer-based models to ensure that the generated reasoning content maintains factual correctness and does not distort the final output. Experimental results on the Vietnamese dataset from the VLSP 2023 Challenge demonstrate that our model outperforms prior works and enhances linguistic consistency in its responses. Furthermore, we extend our evaluation to SeaExam-a multilingual multiple-choice dataset, showing the effectiveness of our reasoning method compared to few-shot prompting techniques.
arxiv情報
著者 | Luu Quy Tung,Hoang Quoc Viet,Vo Trong Thu |
発行日 | 2025-04-23 15:48:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google