Improving Fairness in Large-Scale Object Recognition by CrowdSourced Demographic Information

要約

機械学習における倫理的問題への意識が高まっており、公平性が重要な研究トピックになっています。
コンピュータビジョンにおけるほとんどの公平性の取り組みは、人間のセンシングアプリケーションに焦点を当てており、特定の人口統計グループの視覚表現を増やすことで、人種、肌の色、年齢などの人の身体的属性による差別を防ぎます。
MLの公平性への取り組みは、オブジェクトの認識にも及ぶべきであると私たちは主張します。
建物、アートワーク、食べ物、衣類は、人間の文化を定義するオブジェクトの例です。
機械学習データセットでこれらのオブジェクトを公平に表現することで、特定の文化への偏りが少なく、さまざまな伝統や価値観をより包括的に含むモデルが生まれます。
オブジェクト認識のための多くの研究データセットが存在しますが、どのクラスを含めるべきか、またはクラスごとにどれだけのトレーニングデータを収集する必要があるかを慎重に検討していません。
これに対処するために、貢献者の人口統計学的構成をクラウドソーシングすることに基づいて、シンプルで一般的なアプローチを提案します。公正な関連性スコアを定義し、それらを推定して、各クラスに割り当てます。
ランドマーク認識ドメインへのそのアプリケーションを紹介し、詳細な分析と最終的なより公平なランドマークランキングを提示します。
既存のデータセットと比較して、世界をはるかに公平にカバーする分析を提示します。
評価データセットは、一般的なオブジェクト認識の公平性に重点を置いた最初の種類の2021年のGoogleランドマークチャレンジに使用されました。

要約(オリジナル)

There has been increasing awareness of ethical issues in machine learning, and fairness has become an important research topic. Most fairness efforts in computer vision have been focused on human sensing applications and preventing discrimination by people’s physical attributes such as race, skin color or age by increasing visual representation for particular demographic groups. We argue that ML fairness efforts should extend to object recognition as well. Buildings, artwork, food and clothing are examples of the objects that define human culture. Representing these objects fairly in machine learning datasets will lead to models that are less biased towards a particular culture and more inclusive of different traditions and values. There exist many research datasets for object recognition, but they have not carefully considered which classes should be included, or how much training data should be collected per class. To address this, we propose a simple and general approach, based on crowdsourcing the demographic composition of the contributors: we define fair relevance scores, estimate them, and assign them to each class. We showcase its application to the landmark recognition domain, presenting a detailed analysis and the final fairer landmark rankings. We present analysis which leads to a much fairer coverage of the world compared to existing datasets. The evaluation dataset was used for the 2021 Google Landmark Challenges, which was the first of a kind with an emphasis on fairness in generic object recognition.

arxiv情報

著者 Zu Kim,André Araujo,Bingyi Cao,Cam Askew,Jack Sim,Mike Green,N’Mah Fodiatu Yilla,Tobias Weyand
発行日 2022-06-02 22:55:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY, cs.LG パーマリンク