Token-based Decision Criteria Are Suboptimal in In-context Learning

要約

コンテキスト内学習(ICL)は通常、手動で選択されたラベルトークンの出力確率から分類基準を利用します。
ただし、翻訳による繊細なキャリブレーションと制約のある回転が適用されたにもかかわらず、このようなトークンベースの分類基準は、最適ではない決定境界につながると主張します。
この問題に対処するために、トークンの確率を放棄し、LMの最後の隠された状態で最も近い重心分類器を使用する隠されたキャリブレーションを提案します。
詳細には、予測ラベルとしてテストサンプルに設定されたキャリブレーションから以前に推定された最寄りの重心のラベルを割り当てます。
6つのモデルと10の分類データセットでの実験は、隠されたキャリブレーションが現在のトークンベースのベースラインを約20%〜50%上回ることを示しており、ICLで強力な最先端の最先端を達成しています。
私たちのさらなる分析は、隠されたキャリブレーションがクラス間のオーバーラップが少ないより良い分類基準を見つけることを示しており、LMSはデモンストレーションの助けを借りて線形分離可能なクラス内クラスターを提供します。
当社の公式コードの実装は、https://github.com/hc495/hidden_​​calibrationで見つけることができます。

要約(オリジナル)

In-Context Learning (ICL) typically utilizes classification criteria from output probabilities of manually selected label tokens. However, we argue that such token-based classification criteria lead to suboptimal decision boundaries, despite delicate calibrations through translation and constrained rotation applied. To address this problem, we propose Hidden Calibration, which renounces token probabilities and uses the nearest centroid classifier on the LM’s last hidden states. In detail, we assign the label of the nearest centroid previously estimated from a calibration set to the test sample as the predicted label. Our experiments on 6 models and 10 classification datasets indicate that Hidden Calibration consistently outperforms current token-based baselines by about 20%~50%, achieving a strong state-of-the-art in ICL. Our further analysis demonstrates that Hidden Calibration finds better classification criteria with less inter-class overlap, and LMs provide linearly separable intra-class clusters with the help of demonstrations, which supports Hidden Calibration and gives new insights into the principle of ICL. Our official code implementation can be found at https://github.com/hc495/Hidden_Calibration.

arxiv情報

著者 Hakaze Cho,Yoshihiro Sakai,Mariko Kato,Kenshiro Tanaka,Akira Ishii,Naoya Inoue
発行日 2025-02-05 13:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク