Chinese Open Instruction Generalist: A Preliminary Release

要約

タイトル:Chinese Open Instruction Generalist:Preliminary Release
要約:
– Instruction tuningは、一般的な言語モデルを構築するための重要な技術として広く認識されており、InstructGPTとChatGPTのリリースにより、研究者や一般の人々の注目を集めています。
– 英語志向の大規模言語モデル(LLM)の進歩は目覚ましく、英語タスクに適切なinstruction tuningがあれば、英語ベースのfoundation LLMが多言語タスクで同様のパフォーマンスを発揮できるかどうかは未だに探索されていない。
– このギャップを補うために、4つのサブタスクの固有の特性に適応したさまざまな方法で中国語のinstruction datasetを作成する試みを提案します。
– 200,000の中国語instruction tuningサンプルを収集し、高品質を保証するために手動でチェックしました。
– また、既存の英語と中国語のinstruction corporaをまとめ、新しく構築された中国語のinstruction corporaの潜在的なアプリケーションを簡単に説明しています。
– 結果として、Chinese Open Instruction Generalist(COIG)corporaは、HuggingfaceとGithubで利用可能であり、引き続き更新されます。

要約(オリジナル)

Instruction tuning is widely recognized as a key technique for building generalist language models, which has attracted the attention of researchers and the public with the release of InstructGPT~\citep{ouyang2022training} and ChatGPT\footnote{\url{https://chat.openai.com/}}. Despite impressive progress in English-oriented large-scale language models (LLMs), it is still under-explored whether English-based foundation LLMs can perform similarly on multilingual tasks compared to English tasks with well-designed instruction tuning and how we can construct the corpora needed for the tuning. To remedy this gap, we propose the project as an attempt to create a Chinese instruction dataset by various methods adapted to the intrinsic characteristics of 4 sub-tasks. We collect around 200k Chinese instruction tuning samples, which have been manually checked to guarantee high quality. We also summarize the existing English and Chinese instruction corpora and briefly describe some potential applications of the newly constructed Chinese instruction corpora. The resulting \textbf{C}hinese \textbf{O}pen \textbf{I}nstruction \textbf{G}eneralist (\textbf{COIG}) corpora are available in Huggingface\footnote{\url{https://huggingface.co/datasets/BAAI/COIG}} and Github\footnote{\url{https://github.com/FlagOpen/FlagInstruct}}, and will be continuously updated.

arxiv情報

著者 Ge Zhang,Yemin Shi,Ruibo Liu,Ruibin Yuan,Yizhi Li,Siwei Dong,Yu Shu,Zhaoqun Li,Zekun Wang,Chenghua Lin,Wenhao Huang,Jie Fu
発行日 2023-04-18 04:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク