Text Representation Distillation via Information Bottleneck Principle

要約

事前トレーニング済み言語モデル (PLM) は、最近、テキスト表現の分野で大きな成功を収めています。
ただし、高い計算コストと PLM の高次元表現により、実際のアプリケーションには大きな課題が生じます。
モデルをよりアクセスしやすくするための効果的な方法は、大きなモデルを小さな表現モデルに抽出することです。
蒸留後の性能低下の問題を解決するために、私たちは IBKD と呼ばれる新しい知識蒸留法を提案します。
このアプローチは情報ボトルネック原理に基づいており、教師モデルと生徒モデルの最終表現の間の相互情報を最大化すると同時に、生徒モデルの表現と入力データの間の相互情報を削減することを目的としています。
これにより、学生モデルは不要な情報を避けながら重要な学習情報を保存できるため、過剰適合のリスクが軽減されます。
テキスト表現の 2 つの主要な下流アプリケーション (意味的テキスト類似性タスクと密検索タスク) に関する実証研究は、私たちが提案するアプローチの有効性を実証しています。

要約(オリジナル)

Pre-trained language models (PLMs) have recently shown great success in text representation field. However, the high computational cost and high-dimensional representation of PLMs pose significant challenges for practical applications. To make models more accessible, an effective method is to distill large models into smaller representation models. In order to relieve the issue of performance degradation after distillation, we propose a novel Knowledge Distillation method called IBKD. This approach is motivated by the Information Bottleneck principle and aims to maximize the mutual information between the final representation of the teacher and student model, while simultaneously reducing the mutual information between the student model’s representation and the input data. This enables the student model to preserve important learned information while avoiding unnecessary information, thus reducing the risk of over-fitting. Empirical studies on two main downstream applications of text representation (Semantic Textual Similarity and Dense Retrieval tasks) demonstrate the effectiveness of our proposed approach.

arxiv情報

著者 Yanzhao Zhang,Dingkun Long,Zehan Li,Pengjun Xie
発行日 2023-11-09 16:04:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク