GOVERN: Gradient Orientation Vote Ensemble for Multi-Teacher Reinforced Distillation

要約

事前トレーニングされた言語モデルは質問応答システムの不可欠なコンポーネントとなり、顕著なパフォーマンスを実現しています。
ただし、実際の展開では、計算上の制約の下で動作しながら高いパフォーマンスを維持するために知識の蒸留を実行することが重要です。
この論文では、重要な質問に取り組みます。生徒モデルのパフォーマンスにとって教師なし蒸留の重要性を考えると、ラベルの指導なしに、この段階で複数の教師モデルからの知識を効果的にアンサンブルするにはどうすればよいでしょうか?
我々は、この問題に取り組むための新しいアルゴリズム GOVERN を提案します。
GOVERN は、オフラインとオンラインの両方の実験で大幅な改善を実証し、学生モデルが教師のアンサンブルと同等の結果を達成できるようにしました。
私たちの実験では、GOVERN が 99.5\% のパフォーマンスを達成するのに、アンサンブル手法の推論予算のわずか 1\% しか必要としないことが顕著であることがわかりました。
提案されたアルゴリズムは、現実世界の商用質問応答システムにうまく導入され、現実世界への適用可能性を実証しています。

要約(オリジナル)

Pre-trained language models have become an integral component of question-answering systems, achieving remarkable performance. However, for practical deployment, it is crucial to perform knowledge distillation to maintain high performance while operating under computational constraints. In this paper, we address a key question: given the importance of unsupervised distillation for student model performance, how can knowledge from multiple teacher models be effectively ensemble during this stage without the guidance of labels? We propose a novel algorithm, GOVERN, to tackle this issue. GOVERN has demonstrated significant improvements in both offline and online experiments, enabling the student model to achieve results comparable to that of teacher ensembles. Our experiments show that GOVERN remarkably requires a mere 1\% of the ensemble method’s inference budget to achieve 99.5\% of performance. The proposed algorithm has been successfully deployed in a real-world commercial question-answering system, demonstrating its real-world applicability.

arxiv情報

著者 Wenjie Zhou,Zhenxin Ding,Xiaodong Zhang,Haibo Shi,Junfeng Wang,Dawei Yin
発行日 2024-10-15 16:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク