Fairness in Preference-based Reinforcement Learning

要約

この論文では、複数の目的が存在する場合の好みに基づく強化学習 (PbRL) における公平性の問題に取り組みます。
主な目的は、各目標を公平に扱いながら複数の目標を最適化できる制御ポリシーを設計することです。
この目的に向けて、私たちは新しい公平性誘導選好ベース強化学習 (FPbRL) を設計します。
FPbRL の主なアイデアは、一般化されたジニ福祉関数の最大化によるポリシー学習と組み合わせて、PbRL の報酬ベースの選好ではなく、新しい福祉ベースの選好を通じて複数の目的に関連付けられたベクトル報酬関数を学習することです。
最後に、提案された FPbRL アプローチが効果的で公平なポリシーを学習するための効率と公平性の両方を達成できることを示すために、3 つの異なる環境での実験研究を提供します。

要約(オリジナル)

In this paper, we address the issue of fairness in preference-based reinforcement learning (PbRL) in the presence of multiple objectives. The main objective is to design control policies that can optimize multiple objectives while treating each objective fairly. Toward this objective, we design a new fairness-induced preference-based reinforcement learning or FPbRL. The main idea of FPbRL is to learn vector reward functions associated with multiple objectives via new welfare-based preferences rather than reward-based preference in PbRL, coupled with policy learning via maximizing a generalized Gini welfare function. Finally, we provide experiment studies on three different environments to show that the proposed FPbRL approach can achieve both efficiency and equity for learning effective and fair policies.

arxiv情報

著者 Umer Siddique,Abhinav Sinha,Yongcan Cao
発行日 2023-06-16 17:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.SY, eess.SY パーマリンク