NBIAS: A Natural Language Processing Framework for Bias Identification in Text


テキスト データに偏りがあると、データを使用するときに偏った解釈や結果が生じる可能性があります。
この目的を達成するために、データ層、コーパス構築、モデル開発層、評価層で構成される包括的で堅牢なフレームワーク \textsc{Nbias} を開発します。
このデータセットは、ソーシャル メディア、ヘルスケア、求人ポータルなど、さまざまな分野から多様なデータを収集して構築されています。
ベースラインと比較して 1% ~ 8% の精度向上を達成しています。
提案されたアプローチはさまざまなバイアスに適用でき、テキスト データの公正かつ倫理的な使用に貢献します。


Bias in textual data can lead to skewed interpretations and outcomes when the data is used. These biases could perpetuate stereotypes, discrimination, or other forms of unfair treatment. An algorithm trained on biased data ends up making decisions that disproportionately impact a certain group of people. Therefore, it is crucial to detect and remove these biases to ensure the fair and ethical use of data. To this end, we develop a comprehensive and robust framework \textsc{Nbias} that consists of a data layer, corpus contruction, model development layer and an evaluation layer. The dataset is constructed by collecting diverse data from various fields, including social media, healthcare, and job hiring portals. As such, we applied a transformer-based token classification model that is able to identify bias words/ phrases through a unique named entity. In the assessment procedure, we incorporate a blend of quantitative and qualitative evaluations to gauge the effectiveness of our models. We achieve accuracy improvements ranging from 1% to 8% compared to baselines. We are also able to generate a robust understanding of the model functioning, capturing not only numerical data but also the quality and intricacies of its performance. The proposed approach is applicable to a variety of biases and contributes to the fair and ethical use of textual data.


著者 Shaina Raza,Muskan Garg,Deepak John Reji,Syed Raza Bashir,Chen Ding
発行日 2023-08-08 03:19:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク