要約
タイトル:Chinese Open Instruction Generalist: A Preliminary Release
要約:
– 汎用言語モデルの構築において、インストラクション調整は重要な技術である。
– InstructGPTやChatGPTがリリースされたことにより、研究者や一般の人々の注目を集めている。
– 英語を対象とした大規模言語モデル(LLM)の進展が見られる一方、英語を基盤としたLLMが、よく設計されたインストラクション調整を用いた英語タスクと同様に多言語タスクでどのように機能するかは未だに十分に検証されていない。
– この課題に対処するために、4つのサブタスクの固有の特徴に適応した方法で、中国語のインストラクションデータセットを作成するプロジェクトを提案する。
– 高品質を保証するために手動で約20万件の中国語のインストラクション調整サンプルを収集した。
– 既存の英語および中国語のインストラクションコーパスをまとめ、新たに構築された中国語のインストラクションコーパスの潜在的な応用例についても簡単に説明している。
要約(オリジナル)
Instruction tuning is widely recognized as a key technique for building generalist language models, which comes to the attention of researchers and the public with the release of InstructGPT \cite{ouyang2022training} and ChatGPT [ https://chat.openai.com/ ]. Despite impressive progress in English-oriented large-scale language models (\textbf{LLMs}), it is still under-explored whether English-based foundation LLMs can perform similarly on multilingual tasks compared to English tasks with well-designed instruction tuning and how we can construct the corpora needed for the tuning. To remedy this gap, we propose the project as an attempt to create a Chinese instruction dataset by various methods adapted to the intrinsic characteristics of 4 sub-tasks. We collect around 200k Chinese instruction tuning samples, which have been manually checked to guarantee high quality. We also summarize the existing English and Chinese instruction corpora and brief some potential applications of the newly constructed Chinese instruction corpora.
arxiv情報
著者 | Ge Zhang,Yemin Shi,Ruibo Liu,Ruibin Yuan,Yizhi Li,Siwei Dong,Yu Shu,Zhaoqun Li,Zekun Wang,Chenghua Lin,Wenhao Huang,Jie Fu |
発行日 | 2023-04-17 04:45:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI