要約
この論文では、品質推定 (QE) として知られる、低リソース言語ペアの機械翻訳の参照なしの評価について調査します。
セグメントレベルの QE は、翻訳された出力に品質スコア (0 ~ 100) を提供する、言語を超えた言語理解の困難なタスクです。
ゼロショットまたは少数ショットのシナリオで大規模言語モデル (LLM) を包括的に評価し、アノテーション ガイドラインに基づいた新しいプロンプトを使用して命令の微調整を実行します。
私たちの結果は、プロンプトベースのアプローチがエンコーダーベースの微調整された QE モデルよりも優れていることを示しています。
私たちのエラー分析により、音訳や名前付きエンティティによるエラーに加えて、トークン化の問題が明らかになり、言語を越えたタスクのための LLM 事前トレーニングの改善が必要であることが主張されています。
私たちはさらなる研究のために、データとトレーニングされたモデルを公開します。
要約(オリジナル)
This paper investigates the reference-less evaluation of machine translation for low-resource language pairs, known as quality estimation (QE). Segment-level QE is a challenging cross-lingual language understanding task that provides a quality score (0-100) to the translated output. We comprehensively evaluate large language models (LLMs) in zero/few-shot scenarios and perform instruction fine-tuning using a novel prompt based on annotation guidelines. Our results indicate that prompt-based approaches are outperformed by the encoder-based fine-tuned QE models. Our error analysis reveals tokenization issues, along with errors due to transliteration and named entities, and argues for refinement in LLM pre-training for cross-lingual tasks. We release the data, and models trained publicly for further research.
arxiv情報
著者 | Archchana Sindhujan,Diptesh Kanojia,Constantin Orasan,Shenbin Qian |
発行日 | 2025-01-08 12:54:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google