Diversified Ensembling: An Experiment in Crowdsourced Machine Learning

要約

Kaggle などの競争プラットフォームでのクラウドソースの機械学習は、正確なモデルを生成するための一般的で効果的な方法です。
通常、チームは、ホールドアウト セットの全体的な誤差で測定される最も正確なモデルを求めて競い合います。そのような競争の終わりに近づくと、リーダーボードの上位にあるチームが、プラットフォーム メカニズムの外でモデルをアンサンブルまたは平均して、結果を得るのが一般的です。
最終の最高のグローバルモデル。
arXiv:2201.10408 では、サブグループの不公平性が存在し、特定可能な場合にコミュニティのフィードバックをモデルに統合するために、著者らは公正な機械学習のコンテキストで代替クラウドソーシング フレームワークを開発しました。
そこでは、従来のクラウドソーシング型 ML とは異なり、参加者は公平性のために人口統計上のサブグループなどのサブ問題に取り組むことで、意図的に取り組みを特化します。
ここで、私たちはこの作業についてより広い視点を持っています。この枠組み内では、参加者は公平性の奉仕に特化することもあれば、単に自分の特定の専門知識に応えること(例えば、画像分類タスクにおける鳥の種の識別に焦点を当てること)の両方を行う可能性があることに注意します。
従来のクラウドソーシングとは異なり、これにより参加者の取り組みの多様化が可能になり、より広範囲の個人 (例: 特定の公平性に関する懸念について洞察力のある機械学習の初心者) に参加メカニズムを提供できる可能性があります。
我々は、46 の参加チームが American Community Survey データから収入を予測するモデルの生成を試みる、このフレームワークの最初の中規模実験評価を紹介します。
チームのアプローチを実証的に分析し、私たちが開発した新しいシステム アーキテクチャについて説明します。
ここからは、そのようなフレームワークを展開する最適な方法についての具体的なガイダンスを提供します。

要約(オリジナル)

Crowdsourced machine learning on competition platforms such as Kaggle is a popular and often effective method for generating accurate models. Typically, teams vie for the most accurate model, as measured by overall error on a holdout set, and it is common towards the end of such competitions for teams at the top of the leaderboard to ensemble or average their models outside the platform mechanism to get the final, best global model. In arXiv:2201.10408, the authors developed an alternative crowdsourcing framework in the context of fair machine learning, in order to integrate community feedback into models when subgroup unfairness is present and identifiable. There, unlike in classical crowdsourced ML, participants deliberately specialize their efforts by working on subproblems, such as demographic subgroups in the service of fairness. Here, we take a broader perspective on this work: we note that within this framework, participants may both specialize in the service of fairness and simply to cater to their particular expertise (e.g., focusing on identifying bird species in an image classification task). Unlike traditional crowdsourcing, this allows for the diversification of participants’ efforts and may provide a participation mechanism to a larger range of individuals (e.g. a machine learning novice who has insight into a specific fairness concern). We present the first medium-scale experimental evaluation of this framework, with 46 participating teams attempting to generate models to predict income from American Community Survey data. We provide an empirical analysis of teams’ approaches, and discuss the novel system architecture we developed. From here, we give concrete guidance for how best to deploy such a framework.

arxiv情報

著者 Ira Globus-Harris,Declan Harrison,Michael Kearns,Pietro Perona,Aaron Roth
発行日 2024-02-16 16:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク