When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets?

要約

データ効率の高い言語モデルの事前トレーニングの限界を押し上げることを目的として、BabyLM の課題に対する提出物を紹介します。
私たちの方法は深い相互学習に基づいており、多様な初期化のための学生モデル検索を導入しています。
私たちは、重み付けされた相互学習を 2 レベルの最適化問題として定式化することで、学生を平等に扱うことの限界に対処します。
内側のループはオンライン蒸留を通じてコン​​パクトな学生を学習し、外側のループは多様な学生からより良い知識を蒸留するために重みを最適化します。
この動的な重み付け戦略により、教師モデルが不要になり、計算要件が軽減されます。
私たちの評価では、教師なしのメソッドは教師ありのアプローチに匹敵するか、それを上回ることができます。

要約(オリジナル)

We present our submission to the BabyLM challenge, aiming to push the boundaries of data-efficient language model pretraining. Our method builds upon deep mutual learning, introducing a student model search for diverse initialization. We address the limitation of treating students equally by formulating weighted mutual learning as a bi-level optimization problem. The inner loop learns compact students through online distillation, while the outer loop optimizes weights for better knowledge distillation from diverse students. This dynamic weighting strategy eliminates the need for a teacher model, reducing computational requirements. Our evaluations show that teacher-less methods can match or surpass teacher-supervised approaches.

arxiv情報

著者 Srikrishna Iyer
発行日 2024-11-25 15:25:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク