Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation

要約

大規模な言語モデルは、並列機械翻訳 (NMT) システムと比較して、さらに優れた翻訳パフォーマンスを実証しています。
しかし、それらの間の既存の比較研究は主に自動化された指標に依存しており、これらの指標の実現可能性と人間の判断との整合性に疑問が生じています。
本研究では、ChatGPT および 3 つの NMT システムからの機械翻訳の品質を評価する際の、自動化されたメトリクスと人間の評価の間の収束と発散を調査します。
自動評価を実行するには、4 つの自動評価基準が使用され、人間による評価には DQF-MQM エラー類型論と 6 つのルーブリックが組み込まれます。
特に、自動評価と人間による評価は、形式的忠実度 (エラー率など) の測定では収束しますが、意味論的および実用的忠実度を評価する場合には発散し、自動化されたメトリクスはプロンプト エンジニアリングによってもたらされた ChatGPT の翻訳の改善を捉えることができません。
これらの結果は、現段階での高度な翻訳ツールのパフォーマンスを評価する際に、人間の判断が不可欠な役割を果たしていることを強調しています。

要約(オリジナル)

Large language models have demonstrated parallel and even superior translation performance compared to neural machine translation (NMT) systems. However, existing comparative studies between them mainly rely on automated metrics, raising questions into the feasibility of these metrics and their alignment with human judgment. The present study investigates the convergences and divergences between automated metrics and human evaluation in assessing the quality of machine translation from ChatGPT and three NMT systems. To perform automatic assessment, four automated metrics are employed, while human evaluation incorporates the DQF-MQM error typology and six rubrics. Notably, automatic assessment and human evaluation converge in measuring formal fidelity (e.g., error rates), but diverge when evaluating semantic and pragmatic fidelity, with automated metrics failing to capture the improvement of ChatGPT’s translation brought by prompt engineering. These results underscore the indispensable role of human judgment in evaluating the performance of advanced translation tools at the current stage.

arxiv情報

著者 Zhaokun Jiang,Ziyin Zhang
発行日 2024-04-23 12:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク