GrammaMT: Improving Machine Translation with Grammar-Informed In-Context Learning

要約

GrammaMT は、原文に形態学的および語彙的な注釈を提供する言語記述の一般的な形式であるインターリニア グロス テキスト (IGT) を使用する、機械翻訳のための文法を意識したプロンプト アプローチです。
GrammaMT は、グロスショット、チェーングロス、モデルグロスという 3 つのプロンプト戦略を提案しています。
すべてトレーニング不要で、収集に最小限の労力を必要とする少数のサンプルのみが必要であり、低リソースのセットアップに適しています。
実験では、GrammaMT が、3 つのベンチマークにわたって、さまざまな低リソース言語から高リソース言語までのオープンソースの命令調整 LLM での翻訳パフォーマンスを向上させることが示されています: (1) 最大の IGT コーパス、(2) 絶滅危惧言語に関する困難な 2023 年の SIGMORPHON 共有タスク データ、
(3) FLORES を使用したドメイン外設定でも。
さらに、アブレーション研究では、LLM が入力文の光沢を正確に生成またはアクセスする場合、光沢リソースを活用することで MT のパフォーマンスが大幅に (BLEU ポイント以上) 向上する可能性があることが明らかになりました。

要約(オリジナル)

We introduce GrammaMT, a grammatically-aware prompting approach for machine translation that uses Interlinear Glossed Text (IGT), a common form of linguistic description providing morphological and lexical annotations for source sentences. GrammaMT proposes three prompting strategies: gloss-shot, chain-gloss and model-gloss. All are training-free, requiring only a few examples that involve minimal effort to collect, and making them well-suited for low-resource setups. Experiments show that GrammaMT enhances translation performance on open-source instruction-tuned LLMs for various low- to high-resource languages across three benchmarks: (1) the largest IGT corpus, (2) the challenging 2023 SIGMORPHON Shared Task data over endangered languages, and (3) even in an out-of-domain setting with FLORES. Moreover, ablation studies reveal that leveraging gloss resources could substantially boost MT performance (by over 17 BLEU points) if LLMs accurately generate or access input sentence glosses.

arxiv情報

著者 Rita Ramos,Everlyn Asiko Chimoto,Maartje ter Hoeve,Natalie Schluter
発行日 2024-10-24 12:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク