A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950

要約

このホワイトペーパーでは、1900年から1950年までの中国テキストに関する単語セグメンテーション、一部のスピーチ(POS)タグ付け、および名前付きエンティティ認識(NER)を実行するための大規模な言語モデル(LLMS)と従来の自然言語処理(NLP)ツールを比較します。
Shanghai Library Republican Journal Corpusのサンプルデータセットを使用して、JiebaやSpacyなどの従来のツールは、GPT-4o、Claude 3.5、GLMシリーズなど、LLMSと比較されます。
結果は、LLMSがすべてのメトリックで従来の方法よりも優れていることを示しています。
さらに、LLMSは、詩や時間的変動(つまり、1920年以前と1920年以降のテキスト)などのジャンル固有の課題をよりよく処理し、コンテキスト学習能力がドメイン固有のトレーニングデータの必要性を減らすことにより、NLPのテキストへのアプローチを進めることができることを示しています。

要約(オリジナル)

This paper compares large language models (LLMs) and traditional natural language processing (NLP) tools for performing word segmentation, part-of-speech (POS) tagging, and named entity recognition (NER) on Chinese texts from 1900 to 1950. Historical Chinese documents pose challenges for text analysis due to their logographic script, the absence of natural word boundaries, and significant linguistic changes. Using a sample dataset from the Shanghai Library Republican Journal corpus, traditional tools such as Jieba and spaCy are compared to LLMs, including GPT-4o, Claude 3.5, and the GLM series. The results show that LLMs outperform traditional methods in all metrics, albeit at considerably higher computational costs, highlighting a trade-off between accuracy and efficiency. Additionally, LLMs better handle genre-specific challenges such as poetry and temporal variations (i.e., pre-1920 versus post-1920 texts), demonstrating that their contextual learning capabilities can advance NLP approaches to historical texts by reducing the need for domain-specific training data.

arxiv情報

著者 Zhao Fang,Liang-Chun Wu,Xuening Kong,Spencer Dean Stewart
発行日 2025-03-25 17:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク