A Comprehensive Study of Gender Bias in Chemical Named Entity Recognition Models

要約

化学物質固有表現認識 (NER) モデルは、医薬品副作用の特定から薬物疫学に至るまで、多くの下流タスクで使用されます。
ただし、これらのモデルがすべての人に同じように機能するかどうかは不明です。
パフォーマンスの差異は、意図した利益ではなく害を引き起こす可能性があります。
この論文では、化学 NER システムにおける性別に関連したパフォーマンスの格差を評価します。
私たちは、合成データと、Reddit からの自己識別された性別情報を含む新たに注釈が付けられた 92,405 語以上のコーパスを使用して、化学 NER モデルにおけるジェンダーバイアスを測定するためのフレームワークを開発します。
複数の生物医学 NER モデルを評価したところ、明らかな偏りが明らかになりました。
たとえば、合成データによると、女性関連の名前は、特にブランド名への言及において、化学物質として誤分類されることがよくあります。
さらに、両方のデータセットの女性関連データと男性関連データの間にパフォーマンスの差異が観察されます。
多くのシステムは避妊などの避妊薬を検出できません。
私たちの調査結果は、化学的 NER モデルの偏りを強調しており、専門家は下流のアプリケーションでこれらの偏りを考慮するよう促しています。

要約(オリジナル)

Chemical named entity recognition (NER) models are used in many downstream tasks, from adverse drug reaction identification to pharmacoepidemiology. However, it is unknown whether these models work the same for everyone. Performance disparities can potentially cause harm rather than the intended good. This paper assesses gender-related performance disparities in chemical NER systems. We develop a framework for measuring gender bias in chemical NER models using synthetic data and a newly annotated corpus of over 92,405 words with self-identified gender information from Reddit. Our evaluation of multiple biomedical NER models reveals evident biases. For instance, synthetic data suggests female-related names are frequently misclassified as chemicals, especially for brand name mentions. Additionally, we observe performance disparities between female- and male-associated data in both datasets. Many systems fail to detect contraceptives such as birth control. Our findings emphasize the biases in chemical NER models, urging practitioners to account for these biases in downstream applications.

arxiv情報

著者 Xingmeng Zhao,Ali Niazi,Anthony Rios
発行日 2024-03-13 17:41:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク