要約
トークナイザーは大規模言語モデルで情報をエンコードするために重要ですが、その開発は最近停滞しており、固有の弱点が存在します。
主な制限には、計算オーバーヘッド、非効率的な語彙の使用、不必要に大きい埋め込み層とヘッド層が含まれます。
さらに、それらのパフォーマンスは参照コーパスに偏っており、過小評価されている言語の有効性が低下します。
これらの問題を解決するために、私たちは T-FREE を提案します。これは、文字トリプレット上のスパース活性化パターンを通じて単語を直接埋め込み、参照コーパスを必要としません。
T-FREE は本質的に形態学的類似性を利用し、埋め込み層の強力な圧縮を可能にします。
当社の徹底的な実験評価では、これらの層でパラメータを 85% 以上削減し、競争力のあるダウンストリーム パフォーマンスを達成しました。
さらに、T-FREE は、言語間の転移学習において大幅な改善を示しています。
要約(オリジナル)
Tokenizers are crucial for encoding information in Large Language Models, but their development has recently stagnated, and they contain inherent weaknesses. Major limitations include computational overhead, ineffective vocabulary use, and unnecessarily large embedding and head layers. Additionally, their performance is biased towards a reference corpus, leading to reduced effectiveness for underrepresented languages. To remedy these issues, we propose T-FREE, which directly embeds words through sparse activation patterns over character triplets, and does not require a reference corpus. T-FREE inherently exploits morphological similarities and allows for strong compression of embedding layers. In our exhaustive experimental evaluation, we achieve competitive downstream performance with a parameter reduction of more than 85% on these layers. Further, T-FREE shows significant improvements in cross-lingual transfer learning.
arxiv情報
著者 | Björn Deiseroth,Manuel Brack,Patrick Schramowski,Kristian Kersting,Samuel Weinbach |
発行日 | 2024-06-27 14:49:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google