要約
このレポートでは、翻訳プロンプト、多言語翻訳、翻訳の堅牢性など、機械翻訳用の ChatGPT の予備評価を提供します。
ChatGPT の翻訳機能をトリガーするために、ChatGPT によってアドバイスされたプロンプトを採用しました。その結果、候補プロンプトは、多少のパフォーマンスの違いはあるものの、一般に適切に機能することがわかりました。
多数のベンチマーク テスト セットで評価した結果、ChatGPT は、リソースの高いヨーロッパ言語では商用翻訳製品 (Google 翻訳など) と競合するパフォーマンスを示しますが、リソースが少ない言語や遠い言語では大幅に遅れをとっていることがわかりました。
翻訳の堅牢性に関しては、ChatGPT は生物医学抄録や Reddit コメントに関しては商用システムほどのパフォーマンスは得られませんが、話し言葉に関しては良好な結果を示します。
さらに、遠隔言語向けの $\mathbf{pivot~prompting}$ という興味深い戦略を検討します。これは、ChatGPT にソース文をターゲット言語に翻訳する前に、高リソースのピボット言語に翻訳するように要求し、翻訳パフォーマンスを著しく向上させます。
GPT-4 エンジンのリリースにより、ChatGPT の翻訳パフォーマンスは大幅に向上し、遠い言語であっても商用翻訳製品と同等になりました。
Google 翻訳と ChatGPT を人間が分析したところ、GPT-3.5 を使用した ChatGPT では幻覚や誤訳エラーが多く発生する傾向があるのに対し、GPT-4 を使用した ChatGPT ではエラーが最も少ないことが示唆されています。
言い換えれば、ChatGPT はすでに優れた翻訳者になっています。
詳細については、Github プロジェクトを参照してください: https://github.com/wxjiao/Is-ChatGPT-A-Good-Translator
要約(オリジナル)
This report provides a preliminary evaluation of ChatGPT for machine translation, including translation prompt, multilingual translation, and translation robustness. We adopt the prompts advised by ChatGPT to trigger its translation ability and find that the candidate prompts generally work well with minor performance differences. By evaluating on a number of benchmark test sets, we find that ChatGPT performs competitively with commercial translation products (e.g., Google Translate) on high-resource European languages but lags behind significantly on low-resource or distant languages. As for the translation robustness, ChatGPT does not perform as well as the commercial systems on biomedical abstracts or Reddit comments but exhibits good results on spoken language. Further, we explore an interesting strategy named $\mathbf{pivot~prompting}$ for distant languages, which asks ChatGPT to translate the source sentence into a high-resource pivot language before into the target language, improving the translation performance noticeably. With the launch of the GPT-4 engine, the translation performance of ChatGPT is significantly boosted, becoming comparable to commercial translation products, even for distant languages. Human analysis on Google Translate and ChatGPT suggests that ChatGPT with GPT-3.5 tends to generate more hallucinations and mis-translation errors while that with GPT-4 makes the least errors. In other words, ChatGPT has already become a good translator. Please refer to our Github project for more details: https://github.com/wxjiao/Is-ChatGPT-A-Good-Translator
arxiv情報
著者 | Wenxiang Jiao,Wenxuan Wang,Jen-tse Huang,Xing Wang,Shuming Shi,Zhaopeng Tu |
発行日 | 2023-11-02 07:19:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google