Multistage Collaborative Knowledge Distillation from Large Language Models for Semi-Supervised Sequence Generation

要約

私たちは、ラベル付きデータが不足しすぎてモデルを効果的に微調整できないと同時に、大規模言語モデル (LLM) の少数ショット プロンプトのパフォーマンスが最適ではない場合の、半教師ありシーケンス生成タスクを研究します。
これは、解析などのタスクに注釈を付けるのにコストがかかり、事前トレーニングされた LLM には不慣れな場合に発生します。
この論文では、コンテキスト内で学習された LLM から抽出された学生モデルが、多くの場合、そのようなタスクに関して教師よりもうまく一般化できるという発見を紹介します。
この発見を活用して、このようなタスクのための新しい方法、LLM からの多段階の共同知識蒸留 (MCKD) を提案します。
MCKD の最初の数ショットは、LLM にラベルのないデータの疑似ラベルを生成するように促します。
中間知識蒸留 (KD) の各段階で、新しいペアの学生が、擬似ラベル付きデータの互いに素なパーティションでトレーニングされます。
次に、各学生は、蒸留の次の段階で使用される、目に見えないパーティション用に新しく改良された擬似ラベルを作成します。
いくつかの構文解析タスクおよび意味解析タスクにおける多段階のパーティション間ラベル付けの利点を示します。
たとえば、CRAFT 生物医学解析では、50 個のラベル付きサンプルを含む 3 段階 MCKD は、プロンプト LLM およびバニラ KD の解析 F1 よりもそれぞれ 7.5% および 3.7% 優れており、500 個のサンプルを含む教師あり微調整のパフォーマンスに匹敵します。

要約(オリジナル)

We study semi-supervised sequence generation tasks where labeled data are too scarce to effectively finetune a model and at the same time few-shot prompting of a large language model (LLM) has suboptimal performance. This happens when a task, such as parsing, is expensive to annotate and also unfamiliar to a pretrained LLM. In this paper, we present a discovery that student models distilled from an in-context learned LLM can often generalize better than their teacher on such tasks. Leveraging this finding, we present a new method — multistage collaborative knowledge distillation from an LLM (MCKD) — for such tasks. MCKD first few-shot prompts an LLM to produce pseudolabels for unlabeled data. At each intermediate knowledge distillation (KD) stage, a new pair of students is trained on disjoint partitions of the pseudolabeled data. Each student then produces new and improved pseudolabels for its unseen partition to be used in the next stage of distillation. We demonstrate the advantage of multistage cross-partition labeling on several syntactic and semantic parsing tasks. On CRAFT biomedical parsing, for example, 3-stage MCKD with 50 labeled examples outperforms the prompted LLM and vanilla KD by 7.5% and 3.7% parsing F1, respectively, and matches the performance of supervised finetuning with 500 examples.

arxiv情報

著者 Jiachen Zhao,Wenlong Zhao,Andrew Drozdov,Benjamin Rozonoyer,Md Arafat Sultan,Jay-Yoon Lee,Mohit Iyyer,Andrew McCallum
発行日 2024-01-12 13:57:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク