Unleashing the Multilingual Encoder Potential: Boosting Zero-Shot Performance via Probability Calibration

要約

事前トレーニングされた多言語エンコーダー モデルは、入力例をクローズ スタイルのプロンプトに再定式化することで、ゼロショットの多言語タスクや言語調査を直接実行できます。
これは、モデル パラメーターを更新することなく、マスクされたトークン位置でのラベル単語の確率を予測することによって実現されます。
ただし、この方法のパフォーマンスは、事前トレーニング中に頻繁に発生したラベル単語の予測に対するモデルのバイアスによって制限されます。
これらの単語は通常、高い確率で得られます。
この問題に対処するために、モデルによって予測されるラベル単語の確率を変更するキャリブレーション手法とモデルを組み合わせます。
まず、提案された単純なキャリブレーション方法の有効性を、ゼロショットと少数ショットの両方のシナリオで、モノリンガルエンコーダ上の他の既存の手法と合わせて検証します。
その後、これらのキャリブレーション手法を多言語エンコーダに採用し、幅広いタスクにわたってパフォーマンスが大幅に向上しました。

要約(オリジナル)

Pretrained multilingual encoder models can directly perform zero-shot multilingual tasks or linguistic probing by reformulating the input examples into cloze-style prompts. This is accomplished by predicting the probabilities of the label words at the masked token position, without requiring any updates to the model parameters. However, the performance of this method is limited by the model’s bias toward predicting label words which frequently occurred during the pretraining. These words typically receive high probabilities. To address this issue, we combine the models with calibration techniques which modify the probabilities of label words predicted by the models. We first validate the effectiveness of a proposed simple calibration method together with other existing techniques on monolingual encoders in both zero- and few-shot scenarios. We subsequently employ these calibration techniques on multilingual encoders, resulting in substantial performance improvements across a wide range of tasks.

arxiv情報

著者 Ercong Nie,Helmut Schmid,Hinrich Schütze
発行日 2023-10-19 15:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク