Large Language Models ‘Ad Referendum’: How Good Are They at Machine Translation in the Legal Domain?

要約

この研究では、法律分野の 4 つの言語ペアにわたって、2 つの最先端の大規模言語モデル (LLM) の機械翻訳 (MT) の品質を、従来のニューラル機械翻訳 (NMT) システムと比較して評価します。
自動評価メトリクス (AEM) とプロの翻訳者による人間による評価 (HE) を組み合わせて、翻訳のランキング、流暢さ、適切性を評価します。
この結果は、一般に Google 翻訳が AEM の LLM よりも優れている一方で、人間の評価者は、文脈上適切で流暢な翻訳を生成するという点で、LLM、特に GPT-4 を同等かわずかに優れていると評価していることを示しています。
この矛盾は、LLM が専門的な法律用語や文脈を扱う可能性があることを示唆しており、MT の品質を評価する際の人的評価方法の重要性を浮き彫りにしています。
この研究は、特殊なドメインにおける LLM の機能が進化していることを強調しており、LLM によって生成された翻訳の微妙なニュアンスをより適切に捉えるために、従来の AEM の再評価を求めています。

要約(オリジナル)

This study evaluates the machine translation (MT) quality of two state-of-the-art large language models (LLMs) against a tradition-al neural machine translation (NMT) system across four language pairs in the legal domain. It combines automatic evaluation met-rics (AEMs) and human evaluation (HE) by professional transla-tors to assess translation ranking, fluency and adequacy. The re-sults indicate that while Google Translate generally outperforms LLMs in AEMs, human evaluators rate LLMs, especially GPT-4, comparably or slightly better in terms of producing contextually adequate and fluent translations. This discrepancy suggests LLMs’ potential in handling specialized legal terminology and context, highlighting the importance of human evaluation methods in assessing MT quality. The study underscores the evolving capabil-ities of LLMs in specialized domains and calls for reevaluation of traditional AEMs to better capture the nuances of LLM-generated translations.

arxiv情報

著者 Vicent Briva-Iglesias,Joao Lucas Cavalheiro Camargo,Gokhan Dogru
発行日 2024-02-12 14:40:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク