Extracting General-use Transformers for Low-resource Languages via Knowledge Distillation

要約

この論文では、単純な知識の蒸留を使用して大規模多言語トランスフォーマー (MMT) からより小型で効率的な単一言語トランスフォーマーを生成し、低リソース設定での使用に伴うトレードオフを軽減することを提案します。
ケーススタディとしてタガログ語を使用して、これらの小規模な単一言語モデルが、さまざまなベンチマーク タスクにおいて、より効率的な方法で強力なベースラインと同等のパフォーマンスを発揮することを示します。
さらに、ターゲット言語のソフト監視を改善する蒸留プロセス中の追加ステップを調査し、提案された方法の有効性を示すために多数の分析とアブレーションを提供します。

要約(オリジナル)

In this paper, we propose the use of simple knowledge distillation to produce smaller and more efficient single-language transformers from Massively Multilingual Transformers (MMTs) to alleviate tradeoffs associated with the use of such in low-resource settings. Using Tagalog as a case study, we show that these smaller single-language models perform on-par with strong baselines in a variety of benchmark tasks in a much more efficient manner. Furthermore, we investigate additional steps during the distillation process that improves the soft-supervision of the target language, and provide a number of analyses and ablations to show the efficacy of the proposed method.

arxiv情報

著者 Jan Christian Blaise Cruz,Alham Fikri Aji
発行日 2025-01-22 05:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク