Detecting Natural Language Biases with Prompt-based Learning

要約

このプロジェクトでは、プロンプト エンジニアリングという新たに出現した分野を調査し、それを LM バイアスを検出する下流タスクに適用したいと考えています。
より具体的には、(1) 性別、(2) 人種、(3) 性的指向、(4) 宗教に基づく 4 つの異なるタイプの偏見を示すプロンプトをデザインする方法を検討します。
私たちのプロジェクト内では、言語モデルに存在する可能性のある微妙なバイアスを引き出すことができる、手動で作成されたさまざまなプロンプトを実験します。
これらのプロンプトを、人気がありよく知られているモデル (BERT、RoBERTa、T5) の複数のバリエーションに適用して、それらのバイアスを評価します。
これらのモデルの比較分析を提供し、2 つの方法を使用してモデルを評価します。人間の判断を使用してモデルの予測にバイアスがあるかどうかを判断し、モデル レベルの判断を (さらなるプロンプトを介して) 使用してモデルがバイアスを自己診断できるかどうかを理解します。
独自の予測です。

要約(オリジナル)

In this project, we want to explore the newly emerging field of prompt engineering and apply it to the downstream task of detecting LM biases. More concretely, we explore how to design prompts that can indicate 4 different types of biases: (1) gender, (2) race, (3) sexual orientation, and (4) religion-based. Within our project, we experiment with different manually crafted prompts that can draw out the subtle biases that may be present in the language model. We apply these prompts to multiple variations of popular and well-recognized models: BERT, RoBERTa, and T5 to evaluate their biases. We provide a comparative analysis of these models and assess them using a two-fold method: use human judgment to decide whether model predictions are biased and utilize model-level judgment (through further prompts) to understand if a model can self-diagnose the biases of its own prediction.

arxiv情報

著者 Md Abdul Aowal,Maliha T Islam,Priyanka Mary Mammen,Sandesh Shetty
発行日 2023-09-11 04:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク