Distinguishability Calibration to In-Context Learning

要約

タイトル:文脈に即した学習のための区別可能性のキャリブレーション(Distinguishability Calibration to In-Context Learning)

要約:
– 近年、プロンプトベースの学習に関心が高まっており、少数の注釈つきインスタンスでモデルを訓練できるようになり、低リソースの環境でも適しています。
– テキスト分類にプロンプトベースの学習を使用する場合、目標は、入力テキストを与えて事前に定義されたテンプレートの不足しているトークンを予測し、クラスラベルにマップするために、事前に訓練された言語モデル(PLM)を使用することです。
– ただし、トランスフォーマーアーキテクチャに基づくPLMは、類似した出力埋め込みを生成する傾向があり、異なるクラスラベルを識別することが困難になります。特に、多数の細分化されたクラスラベルを含む分類タスクを扱う場合、この問題がさらに悪化します。
– 本研究では、情報拡散問題(つまり、トランスフォーマーの複数の自己注意層を経た後に異なるトークンが大部分の類似情報を共有する)を緩和するため、機能変換に基づくキャリブレーション方法を提案します。それは回転とスケーリングを通じて、PLMエンコード埋め込みを新しいメトリック空間にマッピングして、その結果の埋め込みの識別可能性を保証するものです。
– さらに、ファイングレインドクラストークン埋め込みに関連する階層関係を捕捉するために、双曲的埋め込みを利用して、荒いから細粒度のメトリック学習戦略により、学習された出力埋め込みの区別可能性を強化します。
– 様々な設定での三つのデータセットでの豊富な実験によって、本手法の有効性が実証されています。私たちのコードはhttps://github.com/donttal/TARAで見つけることができます。

要約(オリジナル)

Recent years have witnessed increasing interests in prompt-based learning in which models can be trained on only a few annotated instances, making them suitable in low-resource settings. When using prompt-based learning for text classification, the goal is to use a pre-trained language model (PLM) to predict a missing token in a pre-defined template given an input text, which can be mapped to a class label. However, PLMs built on the transformer architecture tend to generate similar output embeddings, making it difficult to discriminate between different class labels. The problem is further exacerbated when dealing with classification tasks involving many fine-grained class labels. In this work, we alleviate this information diffusion issue, i.e., different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer, by proposing a calibration method built on feature transformations through rotation and scaling to map a PLM-encoded embedding into a new metric space to guarantee the distinguishability of the resulting embeddings. Furthermore, we take the advantage of hyperbolic embeddings to capture the hierarchical relations among fine-grained class-associated token embedding by a coarse-to-fine metric learning strategy to enhance the distinguishability of the learned output embeddings. Extensive experiments on the three datasets under various settings demonstrate the effectiveness of our approach. Our code can be found at https://github.com/donttal/TARA.

arxiv情報

著者 Hongjing Li,Hanqi Yan,Yanran Li,Li Qian,Yulan He,Lin Gui
発行日 2023-05-10 09:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク