要約
古典的な中国人は、中国文化の中核キャリアとして、古代文学の相続と研究において重要な役割を果たしています。
ただし、既存の自然言語処理モデルは、主に現代の中国語に最適化されているため、古典中国語では不十分なパフォーマンスが発生します。
このペーパーでは、古典的な中国語処理のための包括的なソリューションを提示します。
llama3-8b-chineseモデルでトレーニング前と指導を継続することにより、古典的な中国のタスク用に特別に設計された大規模な言語モデルであるwenyangptを構築します。
さらに、評価ベンチマークデータセット、Wenyanbenchを開発します。
Wenyanbenchでの実験結果は、Wenyangptがさまざまな古典的な中国のタスクで現在の高度なLLMを大幅に上回ることを示しています。
モデルのトレーニングデータ、命令微調整データ\脚注、および評価ベンチマークデータセットを、古典的な中国の処理の分野でのさらなる研究開発を促進するために公開されています。
要約(オリジナル)
Classical Chinese, as the core carrier of Chinese culture, plays a crucial role in the inheritance and study of ancient literature. However, existing natural language processing models primarily optimize for Modern Chinese, resulting in inadequate performance on Classical Chinese. This paper presents a comprehensive solution for Classical Chinese language processing. By continuing pre-training and instruction fine-tuning on the LLaMA3-8B-Chinese model, we construct a large language model, WenyanGPT, which is specifically designed for Classical Chinese tasks. Additionally, we develop an evaluation benchmark dataset, WenyanBENCH. Experimental results on WenyanBENCH demonstrate that WenyanGPT significantly outperforms current advanced LLMs in various Classical Chinese tasks. We make the model’s training data, instruction fine-tuning data\footnote, and evaluation benchmark dataset publicly available to promote further research and development in the field of Classical Chinese processing.
arxiv情報
著者 | Xinyu Yao,Mengdi Wang,Bo Chen,Xiaobing Zhao |
発行日 | 2025-04-29 10:19:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google