Current Topological and Machine Learning Applications for Bias Detection in Text

要約

制度上の偏見は、患者の転帰、学歴、法制度の運用に影響を与える可能性があります。
書面による記録にはバイアスが反映されることが多く、バイアスが特定されると、
偏見を減らすために個人をトレーニングに紹介することも可能です。
テキスト データを調査し、書面による記録を検索してリアルタイムのバイアスを特定できる予測モデルを作成するための機械学習ツールが多数存在します。
ただし、バイアス モデリングの精度に対するジオメトリの影響を理解するために、大規模な言語モデルの埋め込みとバイアスされたテキスト データの幾何学モデルを調査した先行研究はほとんどありません。
この問題を克服するために、この研究では RedditBias データベースを利用してテキストのバイアスを分析しました。
BERT および RoBERTa のバリアントを含む 4 つの変圧器モデルが検討されました。
埋め込み後、t-SNE によりデータの 2 次元視覚化が可能になりました。
KNN 分類器はバイアス タイプを区別し、k 値が低いほど効果的であることが判明しました。
調査結果は、BERT、特にミニ BERT がバイアス分類において優れているのに対し、多言語モデルは遅れていることを示唆しています。
この推奨事項では、単一言語モデルを改良し、ドメイン固有のバイアスを調査することに重点を置いています。

要約(オリジナル)

Institutional bias can impact patient outcomes, educational attainment, and legal system navigation. Written records often reflect bias, and once bias is identified; it is possible to refer individuals for training to reduce bias. Many machine learning tools exist to explore text data and create predictive models that can search written records to identify real-time bias. However, few previous studies investigate large language model embeddings and geometric models of biased text data to understand geometry’s impact on bias modeling accuracy. To overcome this issue, this study utilizes the RedditBias database to analyze textual biases. Four transformer models, including BERT and RoBERTa variants, were explored. Post-embedding, t-SNE allowed two-dimensional visualization of data. KNN classifiers differentiated bias types, with lower k-values proving more effective. Findings suggest BERT, particularly mini BERT, excels in bias classification, while multilingual models lag. The recommendation emphasizes refining monolingual models and exploring domain-specific biases.

arxiv情報

著者 Colleen Farrelly,Yashbir Singh,Quincy A. Hathaway,Gunnar Carlsson,Ashok Choudhary,Rahul Paul,Gianfranco Doretto,Yassine Himeur,Shadi Atalls,Wathiq Mansoor
発行日 2023-11-22 16:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク