Emergent specialization from participation dynamics and multi-learner retraining

要約

多くのオンライン サービスはデータ駆動型です。ユーザーの行動はシステムのパラメーターに影響し、システムのパラメーターはユーザーのサービス エクスペリエンスに影響を与え、さらにユーザーがシステムと対話する方法に影響を与えます。
たとえば、すでにうまく機能しているタスクにのみサービスを使用することを選択することも、別のサービスに切り替えることを選択することもできます。
これらの適応は、システムのパフォーマンスを広範囲に向上させるためにユーザーとタスクの集団について学習するシステムの能力に影響を与えます。
この研究では、そのようなダイナミクスのクラスを分析します。つまり、ユーザーが経験する個々のリスクを軽減するためにサービス間で参加を割り当て、サービスがモデル パラメーターを更新して現在のユーザー集団に対するサービスのリスクを軽減します。
私たちはこれらのダイナミクスを \emph{リスク軽減} と呼び、勾配降下法や乗法重みを含む一般的なモデル更新の広範なクラスをカバーします。
この一般的なクラスのダイナミクスについては、漸近的に安定した平衡が常にセグメント化され、部分母集団が 1 人の学習者に割り当てられることを示します。
穏やかな仮定の下では、功利主義的な社会的最適値は安定した均衡です。
リスク最小化を繰り返すと次のような結果が得られることを示した以前の研究(Hashimoto et al., 2018; Miller et al., 2021)とは対照的に、複数の学習者による近視眼的な更新を繰り返すことでより良い結果が得られることがわかりました。
実際のデータから初期化されたシミュレートされた例を介して現象を説明します。

要約(オリジナル)

Numerous online services are data-driven: the behavior of users affects the system’s parameters, and the system’s parameters affect the users’ experience of the service, which in turn affects the way users may interact with the system. For example, people may choose to use a service only for tasks that already works well, or they may choose to switch to a different service. These adaptations influence the ability of a system to learn about a population of users and tasks in order to improve its performance broadly. In this work, we analyze a class of such dynamics — where users allocate their participation amongst services to reduce the individual risk they experience, and services update their model parameters to reduce the service’s risk on their current user population. We refer to these dynamics as \emph{risk-reducing}, which cover a broad class of common model updates including gradient descent and multiplicative weights. For this general class of dynamics, we show that asymptotically stable equilibria are always segmented, with sub-populations allocated to a single learner. Under mild assumptions, the utilitarian social optimum is a stable equilibrium. In contrast to previous work, which shows that repeated risk minimization can result in (Hashimoto et al., 2018; Miller et al., 2021), we find that repeated myopic updates with multiple learners lead to better outcomes. We illustrate the phenomena via a simulated example initialized from real data.

arxiv情報

著者 Sarah Dean,Mihaela Curmei,Lillian J. Ratliff,Jamie Morgenstern,Maryam Fazel
発行日 2024-04-29 17:16:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG, stat.ML パーマリンク