The Trade-off between Performance, Efficiency, and Fairness in Adapter Modules for Text Classification

要約

現在の自然言語処理(NLP)研究は、パフォーマンス、プライバシー、公平性、効率性など、一度に1つ、あるいはあまり頻繁ではないが2つの側面のみに焦点を当てる傾向があり、これは最適とは言えない結論につながる可能性があり、信頼できるNLPを達成するという広範な目標を見落としていることが多い。アダプターモジュールに関する研究(Houlsby et al., 2019; Hu et al., 2021)は、パフォーマンスと効率の改善に重点を置いており、公平性などの他の側面における意図しない結果については調査していない。このギャップを解決するために、我々は3つのテキスト分類データセットで、(1)全てのパラメータを微調整するか、(2)アダプターモジュールを使うかの実験を行う。性能と効率に関して、我々は、アダプター強化モデルの精度が、完全にファインチューニングされたモデルの精度とほぼ同等である一方で、学習時間が大幅に短縮されるという、事前に得られていた知見を確認する。公平性に関しては、アダプターモジュールは、感度の高いグループ間で公平性がまちまちになることを示す。さらに調査を進めると、標準的なファインチューニング・モデルが限られたバイアスを示す場合、アダプター・モジュールは一般的に余分なバイアスを導入しないことが明らかになった。一方、ファインチューニング・モデルがバイアスを増大させる場合、アダプター・モジュールがバイアスに与える影響は予測不可能になり、特定のグループに対してバイアスを著しく拡大させるリスクが生じる。私たちの発見は、一律に判断するのではなく、ケースバイケースで評価する必要性を強調している。

要約(オリジナル)

Current natural language processing (NLP) research tends to focus on only one or, less frequently, two dimensions – e.g., performance, privacy, fairness, or efficiency – at a time, which may lead to suboptimal conclusions and often overlooking the broader goal of achieving trustworthy NLP. Work on adapter modules (Houlsby et al., 2019; Hu et al., 2021) focuses on improving performance and efficiency, with no investigation of unintended consequences on other aspects such as fairness. To address this gap, we conduct experiments on three text classification datasets by either (1) finetuning all parameters or (2) using adapter modules. Regarding performance and efficiency, we confirm prior findings that the accuracy of adapter-enhanced models is roughly on par with that of fully finetuned models, while training time is substantially reduced. Regarding fairness, we show that adapter modules result in mixed fairness across sensitive groups. Further investigation reveals that, when the standard fine-tuned model exhibits limited biases, adapter modules typically do not introduce extra bias. On the other hand, when the finetuned model exhibits increased bias, the impact of adapter modules on bias becomes more unpredictable, introducing the risk of significantly magnifying these biases for certain groups. Our findings highlight the need for a case-by-case evaluation rather than a one-size-fits-all judgment.

arxiv情報

著者 Minh Duc Bui,Katharina von der Wense
発行日 2024-05-03 11:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク