NBIAS: A Natural Language Processing Framework for Bias Identification in Text

要約

テキスト データに偏りがあると、データを使用するときに偏った解釈や結果が生じる可能性があります。
こうした偏見は、固定観念、差別、その他の不当な扱いを永続させる可能性があります。
偏ったデータに基づいてトレーニングされたアルゴリズムは、特定のグループの人々に不均衡な影響を与える決定を下すことになります。
したがって、データの公正かつ倫理的な使用を確保するには、これらのバイアスを検出して除去することが重要です。
この目的を達成するために、データ層、コーパス構築、モデル開発層、評価層で構成される包括的で堅牢なフレームワーク \textsc{Nbias} を開発します。
このデータセットは、ソーシャル メディア、ヘルスケア、求人ポータルなど、さまざまな分野から多様なデータを収集して構築されています。
そのため、一意の名前付きエンティティを通じてバイアス単語/フレーズを識別できるトランスフォーマーベースのトークン分類モデルを適用しました。
評価手順では、定量的評価と定性的評価を組み合わせてモデルの有効性を評価します。
ベースラインと比較して 1% ~ 8% の精度向上を達成しています。
また、数値データだけでなく、そのパフォーマンスの品質や複雑さも捕らえて、モデルの機能をしっかりと理解することができます。
提案されたアプローチはさまざまなバイアスに適用でき、テキスト データの公正かつ倫理的な使用に貢献します。

要約(オリジナル)

Bias in textual data can lead to skewed interpretations and outcomes when the data is used. These biases could perpetuate stereotypes, discrimination, or other forms of unfair treatment. An algorithm trained on biased data ends up making decisions that disproportionately impact a certain group of people. Therefore, it is crucial to detect and remove these biases to ensure the fair and ethical use of data. To this end, we develop a comprehensive and robust framework \textsc{Nbias} that consists of a data layer, corpus contruction, model development layer and an evaluation layer. The dataset is constructed by collecting diverse data from various fields, including social media, healthcare, and job hiring portals. As such, we applied a transformer-based token classification model that is able to identify bias words/ phrases through a unique named entity. In the assessment procedure, we incorporate a blend of quantitative and qualitative evaluations to gauge the effectiveness of our models. We achieve accuracy improvements ranging from 1% to 8% compared to baselines. We are also able to generate a robust understanding of the model functioning, capturing not only numerical data but also the quality and intricacies of its performance. The proposed approach is applicable to a variety of biases and contributes to the fair and ethical use of textual data.

arxiv情報

著者 Shaina Raza,Muskan Garg,Deepak John Reji,Syed Raza Bashir,Chen Ding
発行日 2023-08-08 03:19:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク