要約
大規模な言語モデル(LLMS)の急速な発展は、ドメイン固有のLLMの進歩の大きなサポートと機会を提供しています。
ただし、無形の文化遺産(ICH)データを使用してこれらの大規模なモデルを微調整すると、バイアス、誤った知識の継承、壊滅的な忘却などの課題に必然的に直面しています。
これらの問題に対処するために、双方向の思考チェーンと報酬メカニズムを統合する新しいトレーニング方法を提案します。
この方法は、無形の文化遺産の分野向けに特別に設計された大規模な言語モデルであるIch-Qwenに基づいて構築されています。
提案された方法により、モデルは前向きな推論を実行するだけでなく、逆の質問と逆の推論を利用してモデルの潜在的な知識をアクティブにすることにより、生成された回答の精度を高めることができます。
さらに、意思決定プロセスを最適化するためのトレーニング中に報酬メカニズムが導入されます。
このメカニズムは、さまざまな重み付けスキームを使用した構造およびコンテンツ評価を通じて、モデルの出力の品質を改善します。
私たちは、ICH-QWENで比較実験を実施し、結果が質問を回答するタスクで、精度、BLE-4、およびRouge-Lスコアの観点から、私たちの方法が0ショット、ステップバイステップの推論、知識の蒸留、および質問の増強方法を上回ることを実証します。
さらに、この論文は、アブレーション実験を通じて思考の双方向と報酬メカニズムを組み合わせることの有効性を強調しています。
さらに、一連の一般化可能性実験が行われ、提案された方法が金融、ウィキダタ、戦略QAなどの分野でさまざまなドメイン固有のデータセットと高度なモデルの改善をもたらすことを示しています。
これは、この方法が複数のドメインに適応できることを示しており、多様な分野での将来のアプリケーションでのモデルトレーニングに貴重なアプローチを提供します。
要約(オリジナル)
The rapid development of large language models (LLMs) has provided significant support and opportunities for the advancement of domain-specific LLMs. However, fine-tuning these large models using Intangible Cultural Heritage (ICH) data inevitably faces challenges such as bias, incorrect knowledge inheritance, and catastrophic forgetting. To address these issues, we propose a novel training method that integrates a bidirectional chains of thought and a reward mechanism. This method is built upon ICH-Qwen, a large language model specifically designed for the field of intangible cultural heritage. The proposed method enables the model to not only perform forward reasoning but also enhances the accuracy of the generated answers by utilizing reverse questioning and reverse reasoning to activate the model’s latent knowledge. Additionally, a reward mechanism is introduced during training to optimize the decision-making process. This mechanism improves the quality of the model’s outputs through structural and content evaluations with different weighting schemes. We conduct comparative experiments on ICH-Qwen, with results demonstrating that our method outperforms 0-shot, step-by-step reasoning, knowledge distillation, and question augmentation methods in terms of accuracy, Bleu-4, and Rouge-L scores on the question-answering task. Furthermore, the paper highlights the effectiveness of combining the bidirectional chains of thought and reward mechanism through ablation experiments. In addition, a series of generalizability experiments are conducted, with results showing that the proposed method yields improvements on various domain-specific datasets and advanced models in areas such as Finance, Wikidata, and StrategyQA. This demonstrates that the method is adaptable to multiple domains and provides a valuable approach for model training in future applications across diverse fields.
arxiv情報
| 著者 | Ruilin Liu,Zhixiao Zhao,Jieqiong Li,Chang Liu,Dongbo Wang | 
| 発行日 | 2025-06-10 14:34:45+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
