NBIAS: A Natural Language Processing Framework for Bias Identification in Text

要約

テキストデータのバイアスは、データを使用する際に、歪んだ解釈や結果につながる可能性がある。こうしたバイアスは、ステレオタイプや差別、その他の不当な扱いを永続させる可能性がある。偏ったデータに基づいて訓練されたアルゴリズムは、特定のグループに不釣り合いな影響を与える決定を下してしまう。従って、公正で倫理的なデータ利用を保証するためには、このようなバイアスを検出し、取り除くことが極めて重要である。この目的のために、我々はデータ層、コーパス構築層、モデル開発層、評価層からなる包括的で頑健なフレームワークⅳtextsc{Nbias}を開発する。データセットは、ソーシャルメディア、ヘルスケア、求人ポータルサイトなど様々な分野から多様なデータを収集して構築されている。そのため、固有な名前付きエンティティを通して偏った単語/フレーズを識別できる変換器ベースのトークン分類モデルを適用した。評価手順では、モデルの有効性を評価するために、定量的評価と定性的評価を組み合わせた。ベースラインと比較して、1%から8%の精度向上を達成した。また、数値データだけでなく、その性能の質や複雑さも把握することで、モデルの機能をしっかりと理解することができる。提案するアプローチは様々なバイアスに適用可能であり、テキストデータの公正かつ倫理的な利用に貢献する。

要約(オリジナル)

Bias in textual data can lead to skewed interpretations and outcomes when the data is used. These biases could perpetuate stereotypes, discrimination, or other forms of unfair treatment. An algorithm trained on biased data ends up making decisions that disproportionately impact a certain group of people. Therefore, it is crucial to detect and remove these biases to ensure the fair and ethical use of data. To this end, we develop a comprehensive and robust framework \textsc{Nbias} that consists of a data layer, corpus contruction, model development layer and an evaluation layer. The dataset is constructed by collecting diverse data from various fields, including social media, healthcare, and job hiring portals. As such, we applied a transformer-based token classification model that is able to identify bias words/ phrases through a unique named entity. In the assessment procedure, we incorporate a blend of quantitative and qualitative evaluations to gauge the effectiveness of our models. We achieve accuracy improvements ranging from 1% to 8% compared to baselines. We are also able to generate a robust understanding of the model functioning, capturing not only numerical data but also the quality and intricacies of its performance. The proposed approach is applicable to a variety of biases and contributes to the fair and ethical use of textual data.

arxiv情報

著者 Shaina Razaa,Muskan Garg,Deepak John Reji,Syed Raza Bashir,Chen Ding
発行日 2023-08-03 10:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク