On the (In)Effectiveness of Large Language Models for Chinese Text Correction

要約

最近、大規模言語モデル (LLM) の開発と進歩は、人工知能コミュニティ全体を驚かせました。
LLM は、その新たな能力の恩恵を受けて、さまざまな下流の自然言語処理 (NLP) タスクにおけるその能力とパフォーマンスを研究するために、ますます多くの研究者を惹きつけています。
あらゆる種類のタスクに対する LLM の驚異的なパフォーマンスに驚く一方で、中国語などの優れた多言語処理能力も備えていることに気付きました。
LLM の中国語処理能力を調査するために、基本的かつ困難な中国語 NLP タスクである中国語テキスト修正に焦点を当てます。
具体的には、2 つの主要な中国語テキスト修正シナリオである中国語文法的誤り修正 (CGEC) および中国語スペル チェック (CSC) タスクに関するさまざまな代表的な LLM を評価します。
さらに、中国語テキスト修正用に LLM を微調整して、LLM の潜在的な機能をよりよく観察します。
広範な分析と以前の最先端の小型モデルとの比較から、LLM は現在、中国語のテキスト修正に関して驚くべきパフォーマンスと不十分な動作の両方を備えていることが経験的にわかりました。
私たちは、私たちの調査結果が中国の NLP コミュニティにおける LLM の定着と応用を促進すると信じています。

要約(オリジナル)

Recently, the development and progress of Large Language Models (LLMs) have amazed the entire Artificial Intelligence community. Benefiting from their emergent abilities, LLMs have attracted more and more researchers to study their capabilities and performance on various downstream Natural Language Processing (NLP) tasks. While marveling at LLMs’ incredible performance on all kinds of tasks, we notice that they also have excellent multilingual processing capabilities, such as Chinese. To explore the Chinese processing ability of LLMs, we focus on Chinese Text Correction, a fundamental and challenging Chinese NLP task. Specifically, we evaluate various representative LLMs on the Chinese Grammatical Error Correction (CGEC) and Chinese Spelling Check (CSC) tasks, which are two main Chinese Text Correction scenarios. Additionally, we also fine-tune LLMs for Chinese Text Correction to better observe the potential capabilities of LLMs. From extensive analyses and comparisons with previous state-of-the-art small models, we empirically find that the LLMs currently have both amazing performance and unsatisfactory behavior for Chinese Text Correction. We believe our findings will promote the landing and application of LLMs in the Chinese NLP community.

arxiv情報

著者 Yinghui Li,Haojing Huang,Shirong Ma,Yong Jiang,Yangning Li,Feng Zhou,Hai-Tao Zheng,Qingyu Zhou
発行日 2023-12-11 12:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク