Contextual Code Switching for Machine Translation using Language Models

要約

大規模言語モデル (LLM) は、近年、さまざまな言語関連タスクに多大な影響を与えています。
彼らの実証された最先端のパフォーマンスは、ゼロショットまたは少数ショットプロンプトなどの方法論によって達成されます。
これらのモデルは、インターネットのセグメントを網羅する広範なデータセットでトレーニングを受け、その後、特定のタスクに合わせて微調整されます。
特に、彼らは、翻訳、要約、質問応答、創造的な文章などのタスクにおいて、それらの特定のタスクに関する明確なトレーニングを受けていないにもかかわらず、熟練していることを示しています。
多言語タスクでは大幅な改善が見られましたが、コードスイッチング、特に機械翻訳でのパフォーマンスはまだ比較的知られていません。
この論文では、複数の LLM を比較する、特に機械翻訳タスクのコード切り替えタスクに関する広範な研究を紹介します。
私たちの結果は、特定のタスクでは LLM が有望な結果をもたらしているにもかかわらず、機械翻訳タスクでは比較的複雑度の低いモデルが多言語大規模言語モデルよりも優れていることを示しています。
我々は、コンテキストコードスイッチングにおける多言語大規模言語モデルの有効性は、そのトレーニング方法論によって制約されると仮定しています。
対照的に、比較的小規模なモデルは、特注のデータセットでトレーニングおよび微調整すると、大部分の多言語モデルと比較して優れた結果が得られる可能性があります。

要約(オリジナル)

Large language models (LLMs) have exerted a considerable impact on diverse language-related tasks in recent years. Their demonstrated state-of-the-art performance is achieved through methodologies such as zero-shot or few-shot prompting. These models undergo training on extensive datasets that encompass segments of the Internet and subsequently undergo fine-tuning tailored to specific tasks. Notably, they exhibit proficiency in tasks such as translation, summarization, question answering, and creative writing, even in the absence of explicit training for those particular tasks. While they have shown substantial improvement in the multilingual tasks their performance in the code switching, especially for machine translation remains relatively uncharted. In this paper, we present an extensive study on the code switching task specifically for the machine translation task comparing multiple LLMs. Our results indicate that despite the LLMs having promising results in the certain tasks, the models with relatively lesser complexity outperform the multilingual large language models in the machine translation task. We posit that the efficacy of multilingual large language models in contextual code switching is constrained by their training methodologies. In contrast, relatively smaller models, when trained and fine-tuned on bespoke datasets, may yield superior results in comparison to the majority of multilingual models.

arxiv情報

著者 Arshad Kaji,Manan Shah
発行日 2023-12-20 16:40:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク