Ensemble Debiasing Across Class and Sample Levels for Fairer Prompting Accuracy

要約

言語モデルは強力な少ないショット学習者であり、テキスト分類タスクの全体的な正確さを達成し、結果の結果が大きなクラスの精度の不均衡に苦しんでいるという事実を隠しています。
私たちは、全体的な精度の追求は、強力なクラスを豊かにすることからではなく、弱いクラスを育てることからもたらされるべきだと考えています。
不均衡に対処するために、クラスレベルとサンプルレベルの両方で、コンテキスト内のクラス確率の柔軟な修正を可能にするため、重いステップ機能ベースのアンサンブルディビアシング方法を提案します。
7つのテキスト分類ベンチマークでのllama-2-13bでの評価は、私たちのアプローチがバランスの取れたクラスの精度で最先端の全体的な精度を達成することを示しています。
さらに重要なことは、結果の確率補正スキームの分析を実行し、弱いクラスを高めるためにサンプルレベルの修正が必要であることを示しています。
弱いクラスを効果的に修正するため、私たちの方法は、特に生物医学的ドメインタスクで、より大きなモデルバリアントLlama-2-70bに大きなパフォーマンスの向上をもたらし、両方のレベルでのアンサンブル紛争の必要性をさらに実証します。

要約(オリジナル)

Language models are strong few-shot learners and achieve good overall accuracy in text classification tasks, masking the fact that their results suffer from great class accuracy imbalance. We believe that the pursuit of overall accuracy should not come from enriching the strong classes, but from raising up the weak ones. To address the imbalance, we propose a Heaviside step function based ensemble debiasing method, which enables flexible rectifications of in-context learned class probabilities at both class and sample levels. Evaluations with Llama-2-13B on seven text classification benchmarks show that our approach achieves state-of-the-art overall accuracy gains with balanced class accuracies. More importantly, we perform analyses on the resulted probability correction scheme, showing that sample-level corrections are necessary to elevate weak classes. Due to effectively correcting weak classes, our method also brings significant performance gains to a larger model variant, Llama-2-70B, especially on a biomedical domain task, further demonstrating the necessity of ensemble debiasing at both levels.

arxiv情報

著者 Ruixi Lin,Ziqiao Wang,Yang You
発行日 2025-03-26 10:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク