要約
機械翻訳 (MT) 品質評価 (QE) は、参考テキストなしで翻訳の信頼性を評価します。
この研究では、QE の新しい指標として「テキストの類似性」を導入し、センテンス トランスフォーマーとコサイン類似性を使用して意味的な近さを測定します。
MLQE-PE データセットのデータを分析したところ、テキストの類似性は従来の指標 (hter、モデル評価、文章確率など) よりも人間のスコアと強い相関関係を示すことがわかりました。
統計ツールとして GAMM を使用することで、人間のスコアの予測において、テキストの類似性が複数の言語ペアにわたって他の指標よりも一貫して優れていることを実証しました。
また、「hter」は実際には QE における人間のスコアを予測できないこともわかりました。
私たちの調査結果は、テキストの類似性が堅牢な QE 指標として有効であることを強調しており、精度と使いやすさを向上させるために、他の指標と QE フレームワークおよび MT システムのトレーニングに統合することを推奨しています。
要約(オリジナル)
Machine Translation (MT) Quality Estimation (QE) assesses translation reliability without reference texts. This study introduces ‘textual similarity’ as a new metric for QE, using sentence transformers and cosine similarity to measure semantic closeness. Analyzing data from the MLQE-PE dataset, we found that textual similarity exhibits stronger correlations with human scores than traditional metrics (hter, model evaluation, sentence probability etc.). Employing GAMMs as a statistical tool, we demonstrated that textual similarity consistently outperforms other metrics across multiple language pairs in predicting human scores. We also found that ‘hter’ actually failed to predict human scores in QE. Our findings highlight the effectiveness of textual similarity as a robust QE metric, recommending its integration with other metrics into QE frameworks and MT system training for improved accuracy and usability.
arxiv情報
著者 | Kun Sun,Rong Wang |
発行日 | 2024-07-01 09:30:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google