Using Language Models to Disambiguate Lexical Choices in Translation

要約

翻訳では、ソース言語の 1 つの単語で表される概念が、ターゲット言語では複数のバリエーションを持つ可能性があります。
語彙選択のタスクでは、コンテキストを使用してソース テキストに最も適切なバリエーションを特定する必要があります。
私たちは 9 か国語のネイティブ スピーカーと協力して、英語から翻訳する際に言語間の概念の違いを示す 1,377 文のペアのデータセットである DTAiLS を作成しました。
当社では、DTAiLS 上の最新の LLM とニューラル機械翻訳システムを、最もパフォーマンスの高いモデル GPT-4 で評価し、言語全体で 67 ~ 85% の精度を達成しています。
最後に、言語モデルを使用して、ターゲット言語の概念のバリエーションを記述する英語のルールを生成します。
弱いモデルに高品質の語彙ルールを提供すると、精度が大幅に向上し、場合によっては GPT-4 に達するか、GPT-4 を上回るパフォーマンスが得られます。

要約(オリジナル)

In translation, a concept represented by a single word in a source language can have multiple variations in a target language. The task of lexical selection requires using context to identify which variation is most appropriate for a source text. We work with native speakers of nine languages to create DTAiLS, a dataset of 1,377 sentence pairs that exhibit cross-lingual concept variation when translating from English. We evaluate recent LLMs and neural machine translation systems on DTAiLS, with the best-performing model, GPT-4, achieving from 67 to 85% accuracy across languages. Finally, we use language models to generate English rules describing target-language concept variations. Providing weaker models with high-quality lexical rules improves accuracy substantially, in some cases reaching or outperforming GPT-4.

arxiv情報

著者 Josh Barua,Sanjay Subramanian,Kayo Yin,Alane Suhr
発行日 2024-11-08 18:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク