Can General-Purpose Large Language Models Generalize to English-Thai Machine Translation ?

要約

大規模言語モデル (LLM) は、一般的なタスクではうまく機能しますが、リソースが少なく、計算量が少ない設定では一般化に苦労します。
私たちは、英語 – タイ語機械翻訳およびコードスイッチング データセットでさまざまな LLM と特殊な翻訳モデルをテストすることで、この制限を調べます。
私たちの調査結果では、4 ビット量子化などのより厳密な計算上の制約の下では、LLM が効果的に変換できないことが明らかになりました。
対照的に、同等以下の計算要件を備えた特殊なモデルは、一貫して LLM よりも優れたパフォーマンスを発揮します。
これは、リソースの制約下でパフォーマンスを維持するための特殊なモデルの重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) perform well on common tasks but struggle with generalization in low-resource and low-computation settings. We examine this limitation by testing various LLMs and specialized translation models on English-Thai machine translation and code-switching datasets. Our findings reveal that under more strict computational constraints, such as 4-bit quantization, LLMs fail to translate effectively. In contrast, specialized models, with comparable or lower computational requirements, consistently outperform LLMs. This underscores the importance of specialized models for maintaining performance under resource constraints.

arxiv情報

著者 Jirat Chiaranaipanich,Naiyarat Hanmatheekuna,Jitkapat Sawatphol,Krittamate Tiankanon,Jiramet Kinchagawat,Amrest Chinkamol,Parinthapat Pengpun,Piyalitt Ittichaiwong,Peerat Limkonchotiwat
発行日 2024-10-22 16:26:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク