要約
翻訳品質評価 (TQE) は、最新の翻訳制作プロセスの重要なステップです。
TQE は、参考翻訳なしで機械翻訳 (MT) と人間翻訳 (HT) の両方の品質を評価する上で重要です。
翻訳の品質を自動的に評価、さらには単純に推定できる機能により、プロセスの最適化によって効率が大幅に向上する可能性があります。
この研究では、最先端の大規模言語モデル (LLM) がこの目的に使用できるかどうかを検討します。
私たちは OpenAI モデルを最高の最先端テクノロジーとして採用し、TQE をバイナリ分類タスクとしてアプローチします。
英語からイタリア語、ドイツ語、フランス語、日本語、オランダ語、ポルトガル語、トルコ語、中国語を含む 8 つの言語ペアにおいて、微調整された gpt3.5 が翻訳品質予測タスク、つまり翻訳に必要なタスクがあるかどうかで優れたパフォーマンスを発揮できることを実験結果が示しています。
編集される予定です。
もう 1 つの発見は、OpenAI モデルの 3 つの異なるバージョン (それぞれ 13B、175B、および 175B パラメーターを持つ curie、davinci、および gpt3.5) のパフォーマンスを比較することによって、単に LLM のサイズを増やすだけでは、このタスクのパフォーマンスが明らかに向上するわけではないということです。
。
要約(オリジナル)
Translation Quality Evaluation (TQE) is an essential step of the modern translation production process. TQE is critical in assessing both machine translation (MT) and human translation (HT) quality without reference translations. The ability to evaluate or even simply estimate the quality of translation automatically may open significant efficiency gains through process optimisation. This work examines whether the state-of-the-art large language models (LLMs) can be used for this purpose. We take OpenAI models as the best state-of-the-art technology and approach TQE as a binary classification task. On eight language pairs including English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese, our experimental results show that fine-tuned gpt3.5 can demonstrate good performance on translation quality prediction tasks, i.e. whether the translation needs to be edited. Another finding is that simply increasing the sizes of LLMs does not lead to apparent better performances on this task by comparing the performance of three different versions of OpenAI models: curie, davinci, and gpt3.5 with 13B, 175B, and 175B parameters, respectively.
arxiv情報
著者 | Serge Gladkoff,Lifeng Han,Gleb Erofeev,Irina Sorokina,Goran Nenadic |
発行日 | 2024-06-21 17:34:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google