Eval-GCSC: A New Metric for Evaluating ChatGPT’s Performance in Chinese Spelling Correction

要約

ChatGPT は、さまざまなダウンストリーム タスクで優れたパフォーマンスを実証しました。
ただし、中国語のスペル修正 (CSC) タスクでは、矛盾が観察されます。ChatGPT は人間の評価では良好なパフォーマンスを示しますが、従来の指標に従えばスコアは低くなります。
この矛盾は、従来の指標が生成モデルの評価に適していないために発生すると考えられます。
長さとフォニックスの制約が厳しすぎるため、ChatGPT の修正機能が過小評価される可能性があります。
CSC タスクの生成モデルをより適切に評価するために、このホワイトペーパーでは新しい評価メトリックである Eval-GCSC を提案します。
単語レベルおよび意味上の類似性の判断を組み込むことにより、厳しい長さと音声の制約が緩和されます。
実験結果は、Eval-GCSC が人間の評価と密接に一致していることを示しています。
この指標に基づくと、ChatGPT のパフォーマンスは従来のトークンレベル分類モデル (TCM) に匹敵し、CSC ツールとしての可能性を示しています。
ソース コードとスクリプトには https://github.com/ktlKTL/Eval-GCSC からアクセスできます。

要約(オリジナル)

ChatGPT has demonstrated impressive performance in various downstream tasks. However, in the Chinese Spelling Correction (CSC) task, we observe a discrepancy: while ChatGPT performs well under human evaluation, it scores poorly according to traditional metrics. We believe this inconsistency arises because the traditional metrics are not well-suited for evaluating generative models. Their overly strict length and phonics constraints may lead to underestimating ChatGPT’s correction capabilities. To better evaluate generative models in the CSC task, this paper proposes a new evaluation metric: Eval-GCSC. By incorporating word-level and semantic similarity judgments, it relaxes the stringent length and phonics constraints. Experimental results show that Eval-GCSC closely aligns with human evaluations. Under this metric, ChatGPT’s performance is comparable to traditional token-level classification models (TCM), demonstrating its potential as a CSC tool. The source code and scripts can be accessed at https://github.com/ktlKTL/Eval-GCSC.

arxiv情報

著者 Kunting Li,Yong Hu,Shaolei Wang,Hanhan Ma,Liang He,Fandong Meng,Jie Zhou
発行日 2023-11-14 14:56:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク