Determination of toxic comments and unintended model bias minimization using Deep learning approach

要約

オンラインでの会話は有害であり、脅迫、虐待、嫌がらせの対象となる可能性があります。
有害なテキスト コメントを特定するために、長年にわたっていくつかの深層学習および機械学習モデルが提案されてきました。
ただし、最近の研究では、トレーニング データの不均衡により、一部のモデルは性別によるバイアスやアイデンティティによるバイアスなどの意図しないバイアスを示す可能性が高いことが示されています。
この研究では、BERT(Bidirectional Encoder Representation from Transformers)と呼ばれる注意ベースのモデルを微調整することで、有害なコメントを検出し、人種、性別、性別、宗教などのアイデンティティの特徴に関する意図しないバイアスを軽減することを目的としています。
加重損失を適用して不均衡データの問題に対処し、分類とバイアスの最小化の観点から、微調整された BERT モデルのパフォーマンスを従来のロジスティック回帰モデルと比較します。
TFIDF ベクタライザーを使用したロジスティック回帰モデルは 57.1% の精度を達成し、微調整された BERT モデルの精度は 89% です。
コードは https://github.com/zim10/Determine_Toxic_comment_and_identity_bias.git で入手できます。

要約(オリジナル)

Online conversations can be toxic and subjected to threats, abuse, or harassment. To identify toxic text comments, several deep learning and machine learning models have been proposed throughout the years. However, recent studies demonstrate that because of the imbalances in the training data, some models are more likely to show unintended biases including gender bias and identity bias. In this research, our aim is to detect toxic comment and reduce the unintended bias concerning identity features such as race, gender, sex, religion by fine-tuning an attention based model called BERT(Bidirectional Encoder Representation from Transformers). We apply weighted loss to address the issue of unbalanced data and compare the performance of a fine-tuned BERT model with a traditional Logistic Regression model in terms of classification and bias minimization. The Logistic Regression model with the TFIDF vectorizer achieve 57.1% accuracy, and fine-tuned BERT model’s accuracy is 89%. Code is available at https://github.com/zim10/Determine_Toxic_comment_and_identity_bias.git

arxiv情報

著者 Md Azim Khan
発行日 2023-11-08 16:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク