要約
従来のニューラル機械翻訳 (NMT) システムは、文化的に固有の情報を含む文の翻訳に失敗することがよくあります。
これまでの NMT 手法のほとんどは、トレーニング中に外部の文化知識を組み込んでいたため、その文化に特有の低周波項目を微調整する必要がありました。
最近のインコンテキスト学習では、軽量プロンプトを利用して大規模言語モデル (LLM) が機械翻訳を実行するようにガイドされていますが、このようなアプローチが機械翻訳に文化認識を注入するという点で機能するかどうかはまだ不明です。
この目的を達成するために、私たちは新しいデータ キュレーション パイプラインを導入して、文化固有のエンティティの注釈を充実させた、文化的に関連した並列コーパスを構築します。
さらに、この LLM ベースの翻訳を支援する、シンプルだが効果的なプロンプト戦略を設計します。
広範な実験により、私たちのアプローチは文化的知識を LLM ベースの機械翻訳に組み込むのに大きく役立ち、文化特有の文章の翻訳において従来の NMT システムを上回るパフォーマンスを発揮できることが示されています。
要約(オリジナル)
Traditional neural machine translation (NMT) systems often fail to translate sentences that contain culturally specific information. Most previous NMT methods have incorporated external cultural knowledge during training, which requires fine-tuning on low-frequency items specific to the culture. Recent in-context learning utilizes lightweight prompts to guide large language models (LLMs) to perform machine translation, however, whether such an approach works in terms of injecting culture awareness into machine translation remains unclear. To this end, we introduce a new data curation pipeline to construct a culturally relevant parallel corpus, enriched with annotations of cultural-specific entities. Additionally, we design simple but effective prompting strategies to assist this LLM-based translation. Extensive experiments show that our approaches can largely help incorporate cultural knowledge into LLM-based machine translation, outperforming traditional NMT systems in translating cultural-specific sentences.
arxiv情報
著者 | Binwei Yao,Ming Jiang,Diyi Yang,Junjie Hu |
発行日 | 2023-05-23 17:56:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google