要約
GrammAmtを紹介します。これは、ソース文の形態学的および語彙注釈を提供する言語記述の一般的な形式であるインターリニアグロステキスト(IGT)を使用する機械翻訳の文法的に意識するプロンプトアプローチです。
Grammamtは、Gloss-Shot、Chain-Gloss、Model-Glossの3つのプロンプト戦略を提案しています。
全員がトレーニングなしで、収集するための最小限の努力を伴ういくつかの例のみが必要であり、リソースの低いセットアップに適したものにします。
実験では、グラマムトが3つのベンチマークにわたるさまざまな低リソース言語のオープンソース命令チューニングLLMの翻訳パフォーマンスを向上させることを示しています。(1)最大のIGTコーパス、(2)挑戦的な2023 Sigmorphon共有タスクデータは、絶え間ない言語でタスクデータを共有します。
さらに、アブレーションの研究により、LLMSが入力文のグロスを正確に生成またはアクセスすると、光沢リソースを活用すると、MTパフォーマンスが大幅にMTパフォーマンスを高めることができることが明らかになりました。
要約(オリジナル)
We introduce GrammaMT, a grammatically-aware prompting approach for machine translation that uses Interlinear Glossed Text (IGT), a common form of linguistic description providing morphological and lexical annotations for source sentences. GrammaMT proposes three prompting strategies: gloss-shot, chain-gloss and model-gloss. All are training-free, requiring only a few examples that involve minimal effort to collect, and making them well-suited for low-resource setups. Experiments show that GrammaMT enhances translation performance on open-source instruction-tuned LLMs for various low- to high-resource languages across three benchmarks: (1) the largest IGT corpus, (2) the challenging 2023 SIGMORPHON Shared Task data over endangered languages, and (3) even in an out-of-domain setting with FLORES. Moreover, ablation studies reveal that leveraging gloss resources could substantially boost MT performance (by over 17 BLEU points) if LLMs accurately generate or access input sentence glosses.
arxiv情報
著者 | Rita Ramos,Everlyn Asiko Chimoto,Maartje ter Hoeve,Natalie Schluter |
発行日 | 2025-06-02 14:23:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google