Predicting Perfect Quality Segments in MT Output with Fine-Tuned OpenAI LLM: Is it possible to capture editing distance patterns from historical data?

要約

翻訳品質評価 (TQE) は、出力された翻訳を実際に使用する前に行う重要なステップです。
TQE は、参考翻訳を見ずに機械翻訳 (MT) と人間翻訳 (HT) の品質を評価する場合にも重要です。
この研究では、最先端の大規模言語モデル (LLM) が TQE タスクとその機能に合わせて微調整できるかどうかを検証します。
ChatGPT を一例として取り上げ、TQE をバイナリ分類タスクとしてアプローチします。
英語からイタリア語、ドイツ語、フランス語、日本語、オランダ語、ポルトガル語、トルコ語、中国語のトレーニング コーパスを含む \textbf{8 つの言語ペア} を使用した実験結果は、API を介して微調整された ChatGPT が予測において比較的高いスコアを達成できることを示しています。
翻訳の品質、つまり \textit{翻訳を編集する必要がある場合}。
ただし、モデルの精度を向上させる余地は確実にたくさんあります。
実験設定を使用すると、英語-イタリア語と英語-ドイツ語ではそれぞれ 82.42\% と 83.69\% になります。
英語とイタリア語のバイリンガルの抄録が論文に掲載されています。

要約(オリジナル)

Translation Quality Estimation (TQE) is an essential step before deploying the output translation into usage. TQE is also critical in assessing machine translation (MT) and human translation (HT) quality without seeing the reference translations. This work examines whether the state-of-the-art large language models (LLMs) can be fine-tuned for the TQE task and their capability. We take ChatGPT as one example and approach TQE as a binary classification task. Using \textbf{eight language pairs} including English to Italian, German, French, Japanese, Dutch, Portuguese, Turkish, and Chinese training corpora, our experimental results show that fine-tuned ChatGPT via its API can achieve a relatively high score on predicting translation quality, i.e. \textit{if the translation needs to be edited}. However, there is definitely much space to improve the model accuracy, e.g. they are 82.42\% and 83.69\% for English-Italian and English-German respectively using our experimental settings. English-Italiano bilingual Abstract is available in the paper.

arxiv情報

著者 Serge Gladkoff,Gleb Erofeev,Lifeng Han,Goran Nenadic
発行日 2023-08-21 14:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク