BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models

要約

大規模言語モデル (LLM) は、言語の理解と生成において顕著な能力を発揮しています。
基礎 LLM から LLM に続く命令に進むにつれて、命令チューニングは LLM を人間の好みに合わせる上で重要な役割を果たします。
ただし、既存の LLM は通常、英語に重点を置いているため、英語以外の言語ではパフォーマンスが劣ります。
英語以外の言語のパフォーマンスを向上させるには、基盤 LLM の言語固有のトレーニング データを収集し、命令チューニングのための言語固有の命令を構築する必要がありますが、どちらも負荷が高くなります。
人間の作業負荷を最小限に抑えるために、インタラクティブな翻訳タスクを通じて、言語の生成と指示の機能を英語から他の言語に移すことを提案します。
基礎LLMとしてLLaMAを利用し、チューニングを指示するための対話型翻訳命令を自動構築する命令追従型LLMであるBayLingを開発しました。
広範な評価により、BayLing はわずか 130 億というかなり小さいパラメータ サイズを使用しているにもかかわらず、GPT-3.5-turbo と同等のパフォーマンスを達成していることが実証されています。
翻訳タスクの実験結果では、BayLing は自動評価で GPT-4 と比較して 95% のシングルターン翻訳能力を達成し、人間による評価で GPT-3.5-turbo と比較して 96% のインタラクティブ翻訳能力を達成したことを示しています。
一般的なタスクのパフォーマンスを評価するために、BayLing-80 と呼ばれるマルチターン命令テスト セットを作成しました。
BayLing-80 の実験結果は、BayLing が GPT-3.5-turbo と比較して 89% のパフォーマンスを達成することを示しています。
BayLing は、中国語の GaoKao と英語の SAT の知識評価でも優れたパフォーマンスを示しており、多数の命令に従う LLM の中で GPT-3.5-turbo に次いで 2 番目です。
BayLing のデモ、ホームページ、コード、モデルが利用可能です。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable prowess in language understanding and generation. Advancing from foundation LLMs to instructionfollowing LLMs, instruction tuning plays a vital role in aligning LLMs to human preferences. However, the existing LLMs are usually focused on English, leading to inferior performance in non-English languages. In order to improve the performance for non-English languages, it is necessary to collect language-specific training data for foundation LLMs and construct language-specific instructions for instruction tuning, both of which are heavy loads. To minimize human workload, we propose to transfer the capabilities of language generation and instruction following from English to other languages through an interactive translation task. We have developed BayLing, an instruction-following LLM by utilizing LLaMA as the foundation LLM and automatically constructing interactive translation instructions for instructing tuning. Extensive assessments demonstrate that BayLing achieves comparable performance to GPT-3.5-turbo, despite utilizing a considerably smaller parameter size of only 13 billion. Experimental results on translation tasks show that BayLing achieves 95% of single-turn translation capability compared to GPT-4 with automatic evaluation and 96% of interactive translation capability compared to GPT-3.5-turbo with human evaluation. To estimate the performance on general tasks, we created a multi-turn instruction test set called BayLing-80. The experimental results on BayLing-80 indicate that BayLing achieves 89% of performance compared to GPT-3.5-turbo. BayLing also demonstrates outstanding performance on knowledge assessment of Chinese GaoKao and English SAT, second only to GPT-3.5-turbo among a multitude of instruction-following LLMs. Demo, homepage, code and models of BayLing are available.

arxiv情報

著者 Shaolei Zhang,Qingkai Fang,Zhuocheng Zhang,Zhengrui Ma,Yan Zhou,Langlin Huang,Mengyu Bu,Shangtong Gui,Yunji Chen,Xilin Chen,Yang Feng
発行日 2023-06-21 11:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク