Risk Preferences of Learning Algorithms

要約

フィードバックからのエージェントの学習は経済的成果を形成し、今日多くの経済的意思決定者は学習アルゴリズムを採用して結果的な選択を行っています。
このメモは、広く使用されている学習アルゴリズム $\varepsilon$-Greedy が緊急のリスク回避を示し、分散が小さいアクションを好むことを示しています。
幅広い条件下で同じ期待値のアクションが提示された場合、$\varepsilon$-Greedy は確率が 1 に近い、より分散の低いアクションを選択します。
この新たな選好は、公平性に関する懸念から均質化に至るまで幅広い影響を与える可能性があり、リスクの高い行動の方が厳密に高い期待見返りがある場合でも、一時的に維持されます。
このバイアスを修正する 2 つの方法について説明します。
最初の方法では、アルゴリズムがアクションが選択される可能性の関数としてデータを再重み付けする必要があります。
2 つ目では、アルゴリズムがあまりデータを収集していないアクションについて楽観的な推定を行う必要があります。
これらの修正によりリスク中立性が回復されることを示します。

要約(オリジナル)

Agents’ learning from feedback shapes economic outcomes, and many economic decision-makers today employ learning algorithms to make consequential choices. This note shows that a widely used learning algorithm, $\varepsilon$-Greedy, exhibits emergent risk aversion: it prefers actions with lower variance. When presented with actions of the same expectation, under a wide range of conditions, $\varepsilon$-Greedy chooses the lower-variance action with probability approaching one. This emergent preference can have wide-ranging consequences, ranging from concerns about fairness to homogenization, and holds transiently even when the riskier action has a strictly higher expected payoff. We discuss two methods to correct this bias. The first method requires the algorithm to reweight data as a function of how likely the actions were to be chosen. The second requires the algorithm to have optimistic estimates of actions for which it has not collected much data. We show that risk-neutrality is restored with these corrections.

arxiv情報

著者 Andreas Haupt,Aroon Narayanan
発行日 2023-12-12 16:43:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, econ.TH パーマリンク