Designing Informative Metrics for Few-Shot Example Selection

要約

事前トレーニングされた言語モデル (PLM) は、適切にフォーマットされた例が提供された場合、驚くべき数回の学習能力を示しました。
ただし、「最良の」例を選択することは依然として課題です。
シーケンスのタグ付けタスクに対して、複雑さに基づいたプロンプト選択アプローチを提案します。
このアプローチでは、例を選択するための専用モデルのトレーニングを回避し、代わりに特定のメトリクスを使用して、テスト文と例の構文的意味論的な複雑さを調整します。
文レベルと単語レベルの両方の指標を使用して、例の複雑さを検討中の(テスト)文と一致させます。
私たちの結果は、私たちのアプローチが PLM からより優れたパフォーマンスを引き出すことを示しています。つまり、少数ショット NER で最先端のパフォーマンスを達成し、GPT-4 の CoNLL2003 データセットで F1 スコアの 5% の絶対的な向上を達成しました。
GPT-j-6B のような小型モデルでは、最大 28.85 ポイント (F1/Acc.) という大きなゲインも見られます。

要約(オリジナル)

Pretrained language models (PLMs) have shown remarkable few-shot learning capabilities when provided with properly formatted examples. However, selecting the ‘best’ examples remains an open challenge. We propose a complexity-based prompt selection approach for sequence tagging tasks. This approach avoids the training of a dedicated model for selection of examples, and instead uses certain metrics to align the syntactico-semantic complexity of test sentences and examples. We use both sentence- and word-level metrics to match the complexity of examples to the (test) sentence being considered. Our results demonstrate that our approach extracts greater performance from PLMs: it achieves state-of-the-art performance on few-shot NER, achieving a 5% absolute improvement in F1 score on the CoNLL2003 dataset for GPT-4. We also see large gains of upto 28.85 points (F1/Acc.) in smaller models like GPT-j-6B.

arxiv情報

著者 Rishabh Adiga,Lakshminarayanan Subramanian,Varun Chandrasekaran
発行日 2024-03-06 17:11:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク