Pre-trained Token-replaced Detection Model as Few-shot Learner

要約

事前に訓練されたマスクされた言語モデルは、少数のショットの学習者として驚くべき能力を示しています。
この論文では、代替手段として、ELECTRA のような事前トレーニング済みのトークン置換検出モデルを使用した、少数ショット学習への新しいアプローチを提案します。
このアプローチでは、分類または回帰タスクをトークン置換検出問題として再定式化します。
具体的には、まず各タスクのテンプレートとラベルの説明語を定義し、それらを入力に入れて自然言語プロンプトを形成します。
次に、事前トレーニング済みのトークン置換検出モデルを使用して、プロンプト内のすべてのラベル説明単語の中でどのラベル説明単語が最もオリジナルである (つまり、最も置換されていない) かを予測します。
16 個のデータセットの体系的な評価により、1 文学習タスクと 2 文学習タスクの両方で、事前にトレーニングされたマスク言語モデルを使用した少数ショット学習者よりも、私たちのアプローチの方が優れていることが示されました。

要約(オリジナル)

Pre-trained masked language models have demonstrated remarkable ability as few-shot learners. In this paper, as an alternative, we propose a novel approach to few-shot learning with pre-trained token-replaced detection models like ELECTRA. In this approach, we reformulate a classification or a regression task as a token-replaced detection problem. Specifically, we first define a template and label description words for each task and put them into the input to form a natural language prompt. Then, we employ the pre-trained token-replaced detection model to predict which label description word is the most original (i.e., least replaced) among all label description words in the prompt. A systematic evaluation on 16 datasets demonstrates that our approach outperforms few-shot learners with pre-trained masked language models in both one-sentence and two-sentence learning tasks.

arxiv情報

著者 Zicheng Li,Shoushan Li,Guodong Zhou
発行日 2023-03-21 07:43:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク