Predicting Perfect Quality Segments in MT Output with Fine-Tuned OpenAI LLM: Is it possible to capture editing distance patterns from historical data?

要約

翻訳品質評価 (TQE) は、出力された翻訳を使用に展開する前の重要なステップです。
TQE は、参考翻訳を見ずに機械翻訳 (MT) と人間翻訳 (HT) の品質を評価する場合にも重要です。
この研究では、最先端の大規模言語モデル (LLM) が TQE タスクとその機能に合わせて微調整できるかどうかを検証します。
ChatGPT を一例として取り上げ、TQE をバイナリ分類タスクとしてアプローチします。
英語からイタリア語、ドイツ語、フランス語、日本語、オランダ語、ポルトガル語、トルコ語、中国語へのトレーニング コーパスを使用した実験結果は、API を介して微調整された ChatGPT が翻訳品質の予測において比較的高いスコアを達成できることを示しています。
編集の必要はありますが、精度を向上させる余地は間違いなくたくさんあります。
英語とイタリア語のバイリンガルの抄録が論文に掲載されています。

要約(オリジナル)

Translation Quality Estimation (TQE) is an important step before deploying the output translation into usage. TQE is also critical in assessing machine translation (MT) and human translation (HT) quality without seeing the reference translations. In this work, we examine if the state-of-the-art large language models (LLMs) can be fine-tuned for the TQE task and their capability. We take ChatGPT as one example and approach TQE as a binary classification task. Using English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese training corpora, our experimental results show that fine-tuned ChatGPT via its API can achieve a relatively high score on predicting translation quality, i.e. if the translation needs to be edited, but there is definitely much space to improve the accuracy. English-Italiano bilingual Abstract is available in the paper.

arxiv情報

著者 Serge Gladkoff,Gleb Erofeev,Lifeng Han,Goran Nenadic
発行日 2023-08-10 23:20:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク