Multi-Sense Embeddings for Language Models and Knowledge Distillation

要約

トランスベースの大手言語モデル(LLMS)は、周囲のコンテキストに応じて同じトークンの異なる(連続)表現を生成するコンテキスト埋め込みに依存しています。
それにもかかわらず、単語とトークンは通常、限られた数の感覚(または意味)を持っています。
言語での使用の範囲をキャプチャするために、各トークンのドロップイン交換としてマルチセンス埋め込みを提案します。
Sense Embedding Dictionaryを構築するために、LLMによって生成された埋め込みにクラスタリングアルゴリズムを適用し、クラスターセンターを代表的な感覚埋め込みと見なします。
さらに、Sense Dictionaryを活用して、はるかに大きなベースLLMモデルから感覚を模倣し、競争力のあるパフォーマンスを維持しながら、重要なスペースと推論の時間節約を提供する小規模な学生モデルを学習する新しい知識蒸留方法を提案します。
さまざまなベンチマークでの徹底的な実験を介して、感覚の埋め込みと知識蒸留アプローチの有効性を紹介します。
https://github.com/qitong-wang/sensedictでコードを共有します

要約(オリジナル)

Transformer-based large language models (LLMs) rely on contextual embeddings which generate different (continuous) representations for the same token depending on its surrounding context. Nonetheless, words and tokens typically have a limited number of senses (or meanings). We propose multi-sense embeddings as a drop-in replacement for each token in order to capture the range of their uses in a language. To construct a sense embedding dictionary, we apply a clustering algorithm to embeddings generated by an LLM and consider the cluster centers as representative sense embeddings. In addition, we propose a novel knowledge distillation method that leverages the sense dictionary to learn a smaller student model that mimics the senses from the much larger base LLM model, offering significant space and inference time savings, while maintaining competitive performance. Via thorough experiments on various benchmarks, we showcase the effectiveness of our sense embeddings and knowledge distillation approach. We share our code at https://github.com/Qitong-Wang/SenseDict

arxiv情報

著者 Qitong Wang,Mohammed J. Zaki,Georgios Kollias,Vasileios Kalantzis
発行日 2025-04-08 13:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク