要約
手話技術の利点がコミュニティのすべてのメンバーに公平に分配されるようにすることが重要です。
したがって、これらのリソースの設計または使用から生じる可能性のある潜在的なバイアスや不公平に対処することが重要です。
ASL Citizen データセットなどのクラウドソースの手話データセットは、アクセシビリティを向上させ、言語の多様性を維持するための優れたリソースですが、既存の偏見を強化しないように慎重に使用する必要があります。
この研究では、ASL Citizen データセットに存在する参加者の人口統計と語彙特徴に関する豊富な情報を利用して、クラウドソースの標識データセットでトレーニングされたモデルから生じる可能性のあるバイアスを研究し、文書化します。
さらに、モデルのトレーニング中にいくつかのバイアス緩和手法を適用したところ、これらの手法が精度を低下させることなくパフォーマンスの差異を削減できることがわかりました。
この研究の公開に伴い、この分野における将来のバイアス緩和作業を促進するために、ASL Citizen データセットの参加者に関する人口統計情報を公開します。
要約(オリジナル)
Ensuring that the benefits of sign language technologies are distributed equitably among all community members is crucial. Thus, it is important to address potential biases and inequities that may arise from the design or use of these resources. Crowd-sourced sign language datasets, such as the ASL Citizen dataset, are great resources for improving accessibility and preserving linguistic diversity, but they must be used thoughtfully to avoid reinforcing existing biases. In this work, we utilize the rich information about participant demographics and lexical features present in the ASL Citizen dataset to study and document the biases that may result from models trained on crowd-sourced sign datasets. Further, we apply several bias mitigation techniques during model training, and find that these techniques reduce performance disparities without decreasing accuracy. With the publication of this work, we release the demographic information about the participants in the ASL Citizen dataset to encourage future bias mitigation work in this space.
arxiv情報
著者 | Katherine Atwell,Danielle Bragg,Malihe Alikhani |
発行日 | 2024-10-07 17:09:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google