On the (In)Effectiveness of Large Language Models for Chinese Text Correction


最近、大規模言語モデル (LLM) の開発と進歩は、人工知能コミュニティ全体を驚かせました。
ChatGPT は、LLM および LLM に関するこの研究の波を引き起こした基礎モデルの傑出した代表として、さまざまな下流の自然言語処理 (NLP) タスクにおけるその機能とパフォーマンスを研究するためにますます多くの研究者を惹きつけています。
さまざまなタスクにおける ChatGPT の驚異的なパフォーマンスに驚かされる一方で、ChatGPT が中国語などの優れた多言語処理機能も備えていることに気付きました。
ChatGPT の中国語処理能力を調査するために、基本的かつ困難な中国語 NLP タスクである中国語テキストの修正に焦点を当てます。
具体的には、2 つの主要な中国語テキスト修正シナリオである中国語文法エラー修正 (CGEC) タスクと中国語スペル チェック (CSC) タスクに関して ChatGPT を評価します。
広範な分析と以前の最先端の微調整モデルとの比較から、ChatGPT は現在、中国語テキスト修正に関して驚くべきパフォーマンスと満足のいく動作の両方を備えていることが経験的にわかりました。
私たちは、私たちの調査結果が中国の NLP コミュニティにおける LLM の定着と応用を促進すると信じています。


Recently, the development and progress of Large Language Models (LLMs) have amazed the entire Artificial Intelligence community. As an outstanding representative of LLMs and the foundation model that set off this wave of research on LLMs, ChatGPT has attracted more and more researchers to study its capabilities and performance on various downstream Natural Language Processing (NLP) tasks. While marveling at ChatGPT’s incredible performance on kinds of tasks, we notice that ChatGPT also has excellent multilingual processing capabilities, such as Chinese. To explore the Chinese processing ability of ChatGPT, we focus on Chinese Text Correction, a fundamental and challenging Chinese NLP task. Specifically, we evaluate ChatGPT on the Chinese Grammatical Error Correction (CGEC) and Chinese Spelling Check (CSC) tasks, which are two main Chinese Text Correction scenarios. From extensive analyses and comparisons with previous state-of-the-art fine-tuned models, we empirically find that the ChatGPT currently has both amazing performance and unsatisfactory behavior for Chinese Text Correction. We believe our findings will promote the landing and application of LLMs in the Chinese NLP community.


著者 Yinghui Li,Haojing Huang,Shirong Ma,Yong Jiang,Yangning Li,Feng Zhou,Hai-Tao Zheng,Qingyu Zhou
発行日 2023-07-18 06:48:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク