Soft-prompt Tuning for Large Language Models to Evaluate Bias

要約

大規模な言語モデルをプロンプトすることは、ラベル付きデータが必要なくても良好な結果が得られるという利点があるため、近年非常に人気が高まっています。
ただし、モデルのパフォーマンスの向上につながる最適なプロンプトを取得するには、迅速な調整が必要です。
このペーパーでは、オープン事前トレーニング済みトランスフォーマー (OPT) やギャラクティカ言語モデルなどの大規模言語モデル (LLM) のバイアスを定量化するために、感情分類タスクに対するソフト プロンプト チューニングの使用について検討します。
これらのモデルは、特定の集団グループに偏りがちな現実世界のデータに基づいてトレーニングされているため、これらの根本的な問題を特定することが重要です。
ソフト プロンプトを使用してバイアスを評価すると、手動で設計されたプロンプトによって引き起こされる可能性のある人間によるバイアスの注入を回避できるという追加の利点が得られます。
グループの公平性 (バイアス) を使用して、さまざまな機密属性に関するモデルのバイアスをチェックし、興味深いバイアス パターンを見つけます。
LLM は業界のさまざまなアプリケーションで使用されているため、これらのモデルを実際に導入する前にバイアスを特定することが重要です。
私たちはパイプラインをオープンソース化し、業界研究者が私たちの研究を自分たちのユースケースに適応させることを奨励しています。

要約(オリジナル)

Prompting large language models has gained immense popularity in recent years due to the advantage of producing good results even without the need for labelled data. However, this requires prompt tuning to get optimal prompts that lead to better model performances. In this paper, we explore the use of soft-prompt tuning on sentiment classification task to quantify the biases of large language models (LLMs) such as Open Pre-trained Transformers (OPT) and Galactica language model. Since these models are trained on real-world data that could be prone to bias toward certain groups of populations, it is important to identify these underlying issues. Using soft-prompts to evaluate bias gives us the extra advantage of avoiding the human-bias injection that can be caused by manually designed prompts. We check the model biases on different sensitive attributes using the group fairness (bias) and find interesting bias patterns. Since LLMs have been used in the industry in various applications, it is crucial to identify the biases before deploying these models in practice. We open-source our pipeline and encourage industry researchers to adapt our work to their use cases.

arxiv情報

著者 Jacob-Junqi Tian,David Emerson,Sevil Zanjani Miyandoab,Deval Pandya,Laleh Seyyed-Kalantari,Faiza Khan Khattak
発行日 2024-03-05 17:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク