要約
この研究は、第 2 回 BabyLM チャレンジの Strict-Small トラックへの提出を示しています。
私たちは、BabyLLaMa モデル (Timiryasov と Tastet、2023) をバックボーンとして使用した教師と生徒の蒸留セットアップを使用します。
学生の学習プロセスをより焦点を絞ったものにするために、目的関数を逆カルバック・ライブラー発散に置き換えます。これは、計算学習者に (モード平均ではなく) モード探索動作を引き起こすことが知られています。
さらに、(2 人の教師のアンサンブルの代わりに) 1 人の教師を使用して実験し、蒸留プロセスを改善するための追加の最適化戦略を実装します。
私たちの実験によると、逆 KL 発散下では、ほとんどのタスクにおいて、単一教師モデルの方が複数教師モデルよりも優れたパフォーマンスを発揮するか、同等のパフォーマンスを発揮することがよくあります。
さらに、高度な最適化手法を組み込むことでモデルのパフォーマンスがさらに向上し、提案したアプローチの有効性と堅牢性が実証されています。
これらの調査結果は、「好き嫌いのある赤ちゃんには 1 人のコーチが必要である」という私たちの考えを裏付けています。
要約(オリジナル)
This study presents our submission to the Strict-Small Track of the 2nd BabyLM Challenge. We use a teacher-student distillation setup with the BabyLLaMa model (Timiryasov and Tastet, 2023) as a backbone. To make the student’s learning process more focused, we replace the objective function with a reverse Kullback-Leibler divergence, known to cause mode-seeking (rather than mode-averaging) behaviour in computational learners. We further experiment with having a single teacher (instead of an ensemble of two teachers) and implement additional optimization strategies to improve the distillation process. Our experiments show that under reverse KL divergence, a single-teacher model often outperforms or matches multiple-teacher models across most tasks. Additionally, incorporating advanced optimization techniques further enhances model performance, demonstrating the effectiveness and robustness of our proposed approach. These findings support our idea that ‘choosy babies need one coach’.
arxiv情報
著者 | Shaozhen Shi,Yevgen Matusevych,Malvina Nissim |
発行日 | 2024-10-29 14:36:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google