SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence Understanding

要約

大規模言語モデル (LLM) は、オープンドメイン NLP タスクに対して優れた能力を示しています。
ただし、LLM は、出力および入力形式が常に制限されている自然言語理解 (NLU) タスクにはあまりにも緩い場合があります。
NLU タスクでのパフォーマンスはプロンプトやデモンストレーションに大きく関連しており、イベント抽出やエンティティの型指定など、いくつかの代表的な NLU タスクの実行が苦手であることが示されています。
この目的を達成するために、オープンドメインの自然言語理解のために特別に強化されたバイリンガル (英語と中国語) のオープンソース自己回帰モデルである SeqGPT を紹介します。
すべての NLU タスクを 2 つのアトミック タスクで表現します。これらのタスクは、入力および出力形式を制限する固定命令を定義しますが、任意に変更されたラベル セットに対しては依然として「オープン」です。
このモデルは、まず ChatGPT によって合成された非常にきめの細かいラベル付きデータを使用して命令調整され、次にさまざまなドメインにわたる 152 のデータセットからの 233 の異なるアトミック タスクによってさらに微調整されます。
実験結果は、SeqGPT が適切な分類および抽出能力を備えており、目に見えないドメインで言語理解タスクを実行できることを示しています。
また、データとモデルのサイズのスケーリング、およびタスク間の転送に関する実証研究も行っています。
私たちのモデルは https://github.com/Alibaba-NLP/SeqGPT からアクセスできます。

要約(オリジナル)

Large language models (LLMs) have shown impressive ability for open-domain NLP tasks. However, LLMs are sometimes too footloose for natural language understanding (NLU) tasks which always have restricted output and input format. Their performances on NLU tasks are highly related to prompts or demonstrations and are shown to be poor at performing several representative NLU tasks, such as event extraction and entity typing. To this end, we present SeqGPT, a bilingual (i.e., English and Chinese) open-source autoregressive model specially enhanced for open-domain natural language understanding. We express all NLU tasks with two atomic tasks, which define fixed instructions to restrict the input and output format but still “open” for arbitrarily varied label sets. The model is first instruction-tuned with extremely fine-grained labeled data synthesized by ChatGPT and then further fine-tuned by 233 different atomic tasks from 152 datasets across various domains. The experimental results show that SeqGPT has decent classification and extraction ability, and is capable of performing language understanding tasks on unseen domains. We also conduct empirical studies on the scaling of data and model size as well as on the transfer across tasks. Our model is accessible at https://github.com/Alibaba-NLP/SeqGPT.

arxiv情報

著者 Tianyu Yu,Chengyue Jiang,Chao Lou,Shen Huang,Xiaobin Wang,Wei Liu,Jiong Cai,Yangning Li,Yinghui Li,Kewei Tu,Hai-Tao Zheng,Ningyu Zhang,Pengjun Xie,Fei Huang,Yong Jiang
発行日 2023-08-21 07:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク