Fast Vocabulary Transfer for Language Model Compression

要約

実際のビジネス アプリケーションでは、言語モデルのパフォーマンスとサイズの間のトレードオフが必要です。
語彙の転送に依存したモデル圧縮の新しい方法を提案します。
さまざまな垂直ドメインと下流のタスクでこの方法を評価します。
私たちの結果は、語彙転送を他の圧縮技術と組み合わせて効果的に使用でき、パフォーマンスをわずかに犠牲にしながらモデル サイズと推論時間を大幅に削減できることを示しています。

要約(オリジナル)

Real-world business applications require a trade-off between language model performance and size. We propose a new method for model compression that relies on vocabulary transfer. We evaluate the method on various vertical domains and downstream tasks. Our results indicate that vocabulary transfer can be effectively used in combination with other compression techniques, yielding a significant reduction in model size and inference time while marginally compromising on performance.

arxiv情報

著者 Leonidas Gee,Andrea Zugarini,Leonardo Rigutini,Paolo Torroni
発行日 2024-02-15 14:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク