An LLM-as-a-judge Approach for Scalable Gender-Neutral Translation Evaluation

要約

性別中立翻訳(GNT)は、ソーステキストにそれらの指示対象の性別に関する明確な手がかりがない場合、人間の指示物の性別を表現することを避けることを目指しています。
GNTを自動的に評価することは特に困難であり、現在のソリューションは単一言語分類器に限定されています。
このようなソリューションは、ソース文を考慮せず、専用のデータと新しい言語に拡張するために微調整を必要とするため、理想的ではありません。
この作業では、GNTの評価者としての大規模な言語モデル(LLM)の使用を調査することにより、このような制限に対処します。
具体的には、2つのプロンプトアプローチを調査します。1つは、LLMが文レベルの評価のみを生成するだけで、もう1つは、文レベルの判断の前に詳細なフレーズレベルの注釈を最初に作成する考え方のアプローチに似ています。
オープンとプロプライエタリの両方の5つのモデルを持つ複数の言語での広範な実験を通じて、LLMがGNTの評価者として機能できることを示しています。
さらに、文レベルの評価が一貫してすべてのモデルの精度を改善し、現在のソリューションに優れたスケーラブルな代替手段を提供する前に、フレーズレベルの注釈を求めるように促すことができます。

要約(オリジナル)

Gender-neutral translation (GNT) aims to avoid expressing the gender of human referents when the source text lacks explicit cues about the gender of those referents. Evaluating GNT automatically is particularly challenging, with current solutions being limited to monolingual classifiers. Such solutions are not ideal because they do not factor in the source sentence and require dedicated data and fine-tuning to scale to new languages. In this work, we address such limitations by investigating the use of large language models (LLMs) as evaluators of GNT. Specifically, we explore two prompting approaches: one in which LLMs generate sentence-level assessments only, and another, akin to a chain-of-thought approach, where they first produce detailed phrase-level annotations before a sentence-level judgment. Through extensive experiments on multiple languages with five models, both open and proprietary, we show that LLMs can serve as evaluators of GNT. Moreover, we find that prompting for phrase-level annotations before sentence-level assessments consistently improves the accuracy of all models, providing a better and more scalable alternative to current solutions.

arxiv情報

著者 Andrea Piergentili,Beatrice Savoldi,Matteo Negri,Luisa Bentivogli
発行日 2025-04-16 10:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク