要約
タイフーンは、タイ語専用に開発された一連のタイ語大規模言語モデル (LLM) です。
この技術レポートでは、データ準備、事前トレーニング、命令チューニング、評価など、タイの LLM 開発における課題と洞察を示します。
低リソース言語の課題の 1 つは事前トレーニング データの量であるため、継続的なトレーニングを適用して、強力な LLM から既存の世界の知識を転送します。
各モデルにカプセル化されたタイの知識を事前トレーニングの段階から評価するために、タイの高校生や投資専門家向けの試験に基づいたベンチマークである ThaiExam を開発しました。
さらに、タイ語の指示に従うように タイフーン を微調整し、タイ語の指示データセットで指示調整されたモデルや翻訳、要約、質問応答タスクを評価します。
一連のタイ語ベンチマークの実験結果では、Typhoon はすべてのオープンソースのタイ語言語モデルよりも優れており、そのパフォーマンスはタイ語の GPT-3.5 と同等であるにもかかわらず、パラメータが 70 億しかなく、タイ語テキストのトークン化効率が 2.62 倍高いことが示されています。
要約(オリジナル)
Typhoon is a series of Thai large language models (LLMs) developed specifically for the Thai language. This technical report presents challenges and insights in developing Thai LLMs, including data preparation, pretraining, instruction-tuning, and evaluation. As one of the challenges of low-resource languages is the amount of pretraining data, we apply continual training to transfer existing world knowledge from a strong LLM. To evaluate the Thai knowledge encapsulated in each model from the pretraining stage, we develop ThaiExam, a benchmark based on examinations for high-school students and investment professionals in Thailand. In addition, we fine-tune Typhoon to follow Thai instructions, and we evaluate instruction-tuned models on Thai instruction datasets as well as translation, summarization, and question-answering tasks. Experimental results on a suite of Thai benchmarks show that Typhoon outperforms all open-source Thai language models, and its performance is on par with GPT-3.5 in Thai while having only 7 billion parameters and being 2.62 times more efficient in tokenizing Thai text.
arxiv情報
著者 | Kunat Pipatanakul,Phatrasek Jirabovonvisut,Potsawee Manakul,Sittipong Sripaisarnmongkol,Ruangsak Patomwong,Pathomporn Chokchainant,Kasima Tharnpipitchai |
発行日 | 2023-12-21 15:38:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google