Fairness in Preference-based Reinforcement Learning

要約

本稿では、複数の目的が存在する場合の選好に基づく強化学習(PbRL)における公平性の問題を扱う。主な目的は、各目的を公平に扱いながら複数の目的を最適化できる制御方針を設計することである。この目的を達成するために、我々は新しい公平性誘導型選好に基づく強化学習(FPbRL)を設計する。FPbRLの主なアイデアは、PbRLにおける報酬ベースの選好ではなく、新たな厚生ベースの選好によって、複数の目的に関連するベクトル報酬関数を学習することであり、一般化されたジニ厚生関数の最大化による政策学習と結合する。最後に、提案するFPbRLアプローチが効果的で公平な政策を学習するための効率性と公平性の両方を達成できることを示すために、3つの異なる環境での実験研究を提供する。

要約(オリジナル)

In this paper, we address the issue of fairness in preference-based reinforcement learning (PbRL) in the presence of multiple objectives. The main objective is to design control policies that can optimize multiple objectives while treating each objective fairly. Toward this objective, we design a new fairness-induced preference-based reinforcement learning or FPbRL. The main idea of FPbRL is to learn vector reward functions associated with multiple objectives via new welfare-based preferences rather than reward-based preference in PbRL, coupled with policy learning via maximizing a generalized Gini welfare function. Finally, we provide experiment studies on three different environments to show that the proposed FPbRL approach can achieve both efficiency and equity for learning effective and fair policies.

arxiv情報

著者 Umer Siddique,Abhinav Sinha,Yongcan Cao
発行日 2023-09-01 05:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY, cs.LG, cs.SY, eess.SY パーマリンク