Efficacy of Machine-Generated Instructions


大規模な「命令調整型」言語モデル (つまり、命令に応答するように微調整された) は、新しいタスクに対してゼロショットを一般化する驚くべき能力を実証しています。
私たちは、機械生成されたアノテーションの有効性を解明するために定量的研究を実施しました。そこでは、微調整された BERT モデルの結果と、人間によるアノテーションと機械生成されたアノテーションの結果を比較しました。
私たちの方法をバニラ GPT-3 モデルに適用すると、機械が生成したアノテーションは 78.54% 正しく、微調整されたモデルは人間がラベルを付けたアノテーションのパフォーマンスと比較して 96.01% のモデル パフォーマンスを達成したことがわかりました。


Large ‘instruction-tuned’ language models (i.e., finetuned to respond to instructions) have demonstrated a remarkable ability to generalize zero-shot to new tasks. Nevertheless, they depend heavily on human-written instruction data that is often limited in quantity, diversity, and creativity, therefore hindering the generality of the tuned model. We conducted a quantitative study to figure out the efficacy of machine-generated annotations, where we compare the results of a fine-tuned BERT model with human v/s machine-generated annotations. Applying our methods to the vanilla GPT-3 model, we saw that machine generated annotations were 78.54% correct and the fine-tuned model achieved a 96.01% model performance compared to the performance with human-labelled annotations. This result shows that machine-generated annotations are a resource and cost effective way to fine-tune down-stream models.


著者 Samaksh Gulati,Anshit Verma,Manoj Parmar,Palash Chaudhary
発行日 2023-12-22 04:01:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク