Assessing Translation capabilities of Large Language Models involving English and Indian Languages

要約

Generative Large Language Model (LLM) は、さまざまな NLP タスクにおいて目覚ましい進歩を遂げました。
この研究での私たちの目的は、英語と 22 のインド言語を含むタスクとして機械翻訳を使用することにより、大規模な言語モデルの多言語機能を調査することです。
まず、生の大規模言語モデルの翻訳機能を調査し、続いて同じ生モデルのコンテキスト内学習機能を調査します。
これらの大規模な言語モデルは、LoRA などのパラメーター効率の高い微調整方法と、さらに完全な微調整を使用して微調整されます。
私たちの調査を通じて、LLaMA に基づいた、LLM を含む翻訳タスクに最適なパフォーマンスを発揮する大規模言語モデルを特定しました。
私たちの結果は、2 段階で微調整された LLaMA を使用した場合、平均 BLEU スコアがそれぞれ 13.42、15.93、12.13、12.30、および 12.07、CHRF スコアが 43.98、46.99、42.55、42.42、および 45.39 であり、大幅な進歩を示しています。
IN22 (会話)、IN22 (一般)、flores200-dev、flores200-devtest、および newstest2019 テストセットの英語からインド言語の場合は 13b。
同様に、インド言語から英語への場合、IN22 で微調整された LLaMA-13b を使用して、平均 BLEU スコア 14.03、16.65、16.17、15.35、12.55、chrF スコア 36.71、40.44、40.26、39.51、36.20 を達成しました。
(会話)、IN22 (一般)、flores200-dev、flores200-devtest、および newstest2019 テストセット。
全体として、私たちの調査結果は、現在 LLM で過小評価されている言語を含む、機械翻訳機能のための大規模な言語モデルの可能性と強みを浮き彫りにしています。

要約(オリジナル)

Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. In this work, our aim is to explore the multilingual capabilities of large language models by using machine translation as a task involving English and 22 Indian languages. We first investigate the translation capabilities of raw large language models, followed by exploring the in-context learning capabilities of the same raw models. We fine-tune these large language models using parameter efficient fine-tuning methods such as LoRA and additionally with full fine-tuning. Through our study, we have identified the best performing large language model for the translation task involving LLMs, which is based on LLaMA. Our results demonstrate significant progress, with average BLEU scores of 13.42, 15.93, 12.13, 12.30, and 12.07, as well as CHRF scores of 43.98, 46.99, 42.55, 42.42, and 45.39, respectively, using 2-stage fine-tuned LLaMA-13b for English to Indian languages on IN22 (conversational), IN22 (general), flores200-dev, flores200-devtest, and newstest2019 testsets. Similarly, for Indian languages to English, we achieved average BLEU scores of 14.03, 16.65, 16.17, 15.35 and 12.55 along with chrF scores of 36.71, 40.44, 40.26, 39.51, and 36.20, respectively, using fine-tuned LLaMA-13b on IN22 (conversational), IN22 (general), flores200-dev, flores200-devtest, and newstest2019 testsets. Overall, our findings highlight the potential and strength of large language models for machine translation capabilities, including for languages that are currently underrepresented in LLMs.

arxiv情報

著者 Vandan Mujadia,Ashok Urlana,Yash Bhaskar,Penumalla Aditya Pavani,Kukkapalli Shravya,Parameswari Krishnamurthy,Dipti Misra Sharma
発行日 2023-11-15 18:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク