Can ChatGPT Rival Neural Machine Translation? A Comparative Study

要約

翻訳に大規模言語モデルを活用することへの関心の高まりに触発されたこの論文では、中国の外交文書を英語に翻訳する際に、主流のニューラル機械翻訳 (NMT) エンジンと比較して、ChatGPT に代表される大規模言語モデル (LLM) の機能を評価します。
具体的には、ChatGPT および NMT エンジンの翻訳品質を、4 つの自動化された指標と、エラー類型論と 6 つの分析ルーブリックに基づく人的評価によって測定して検査します。
私たちの調査結果は、自動化されたメトリクスは、さまざまなプロンプトや NMT システムの下で ChatGPT に対して同様の結果をもたらす一方、人間のアノテーターは、翻訳タスクに関する例やコンテキスト情報が提供された場合に、ChatGPT に著しく高いスコアを割り当てる傾向があることを示しています。
自動化されたメトリクスと人間による評価の側面との間のペアごとの相関関係は、弱く有意ではない結果を生成し、翻訳品質評価の 2 つの方法の間に乖離があることを示唆しています。
これらの調査結果は、有能な機械翻訳者としての ChatGPT の可能性と、そのパフォーマンスに対するプロンプト エンジニアリングの影響についての貴重な洞察を提供します。

要約(オリジナル)

Inspired by the increasing interest in leveraging large language models for translation, this paper evaluates the capabilities of large language models (LLMs) represented by ChatGPT in comparison to the mainstream neural machine translation (NMT) engines in translating Chinese diplomatic texts into English. Specifically, we examine the translation quality of ChatGPT and NMT engines as measured by four automated metrics and human evaluation based on an error-typology and six analytic rubrics. Our findings show that automated metrics yield similar results for ChatGPT under different prompts and NMT systems, while human annotators tend to assign noticeably higher scores to ChatGPT when it is provided an example or contextual information about the translation task. Pairwise correlation between automated metrics and dimensions of human evaluation produces weak and non-significant results, suggesting the divergence between the two methods of translation quality assessment. These findings provide valuable insights into the potential of ChatGPT as a capable machine translator, and the influence of prompt engineering on its performance.

arxiv情報

著者 Zhaokun Jiang,Ziyin Zhang
発行日 2024-01-10 14:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク