Chinese Open Instruction Generalist: A Preliminary Release

要約

タイトル:Chinese Open Instruction Generalist:仮リリース
要約:
– 指示の調整は、汎用言語モデルの構築のための主要なテクニックとして広く認識されており、InstructGPTとChatGPTのリリースにより、研究者や一般の注目を集めています。
– 英語に向けた大規模言語モデル(LLMs)での印象的な進歩にもかかわらず、英語ベースの基盤LLMsが英語タスクと同様にマルチリンガルタスクで実行できるかどうか、およびチューニングに必要なコーパスをどのように構築できるかはまだ十分に探究されていません。
– このギャップを埋めるために、4つのサブタスクの固有の特性に適応した様々な方法によって中国語の指示データセットを作成する試みとして、このプロジェクトを提案します。
– 高品質を確保するために手動で確認された約20万件の中国語指示調整サンプルを収集しました。
– 既存の英語と中国語の指示コーパスをまとめ、新たに構築された中国語の指示コーパスのいくつかの潜在的な応用例について簡単に説明しています。
– 結果として得られた \textbf{COIG} 語彙は、Huggingface と Github で利用可能であり、引き続き更新されます。

要約(オリジナル)

Instruction tuning is widely recognized as a key technique for building generalist language models, which has attracted the attention of researchers and the public with the release of InstructGPT~\citep{ouyang2022training} and ChatGPT\footnote{\url{https://chat.openai.com/}}. Despite impressive progress in English-oriented large-scale language models (LLMs), it is still under-explored whether English-based foundation LLMs can perform similarly on multilingual tasks compared to English tasks with well-designed instruction tuning and how we can construct the corpora needed for the tuning. To remedy this gap, we propose the project as an attempt to create a Chinese instruction dataset by various methods adapted to the intrinsic characteristics of 4 sub-tasks. We collect around 200k Chinese instruction tuning samples, which have been manually checked to guarantee high quality. We also summarize the existing English and Chinese instruction corpora and briefly describe some potential applications of the newly constructed Chinese instruction corpora. The resulting \textbf{C}hinese \textbf{O}pen \textbf{I}nstruction \textbf{G}eneralist (\textbf{COIG}) corpora are available in Huggingface\footnote{\url{https://huggingface.co/datasets/BAAI/COIG}} and Github\footnote{\url{https://github.com/BAAI-Zlab/COIG}}, and will be continuously updated.

arxiv情報

著者 Ge Zhang,Yemin Shi,Ruibo Liu,Ruibin Yuan,Yizhi Li,Siwei Dong,Yu Shu,Zhaoqun Li,Zekun Wang,Chenghua Lin,Wenhao Huang,Jie Fu
発行日 2023-04-21 03:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク