Fairness-Sensitive Policy-Gradient Reinforcement Learning for Reducing Bias in Robotic Assistance

要約

ロボットは、日常生活の公共サービス (空港やレストランなど) から共同製造に至るまで、さまざまな活動で人間を支援します。
しかし、ロボットがあるグループの人間から学んだ知識や戦略が他のグループにも適用できると考えるのは危険です。
ロボットの差別的なパフォーマンスは、一部の人々にとってサービスの質を損ない、サービス要求を無視し、さらには気分を害する可能性があります。
したがって、より公平なサービスを実現するには、ロボットの意思決定におけるバイアスを軽減することが非常に重要です。
この論文では、ロボットが人間との対話中に偏った行動を自己識別できるようにするため、自己反省メカニズムである公平性重視ポリシー勾配強化学習 (FSPGRL) を設計しました。
FSPGRL は、特定の勾配に沿った異常な更新を検査することでバイアスを特定し、ロボットの公正な意思決定をサポートするためにポリシー ネットワークを更新します。
FSPGRL の有効性を検証するために、「ロボットがレストランで人々にサービスを提供している」という人間中心のサービス シナリオが設計されました。
ユーザー調査が実施されました。
24 人の被験者が 1,000 件のサービス デモンストレーションに参加しました。
ロボットの行動からよく見られる4つの課題「意欲の問題」「優先課題」「品質の問題」「リスクの問題」が観察されました。
FSPGRL を使用してロボットの意思決定を改善することにより、ロボットはより公平なサービスを実現するための自己バイアス検出機能を備えていることが証明されました。
ロボットの学習過程におけるバイアスの抑制と品質の向上を実現し、比較的公平なモデルを実現しました。

要約(オリジナル)

Robots assist humans in various activities, from daily living public service (e.g., airports and restaurants), and to collaborative manufacturing. However, it is risky to assume that the knowledge and strategies robots learned from one group of people can apply to other groups. The discriminatory performance of robots will undermine their service quality for some people, ignore their service requests, and even offend them. Therefore, it is critically important to mitigate bias in robot decision-making for more fair services. In this paper, we designed a self-reflective mechanism — Fairness-Sensitive Policy Gradient Reinforcement Learning (FSPGRL), to help robots to self-identify biased behaviors during interactions with humans. FSPGRL identifies bias by examining the abnormal update along particular gradients and updates the policy network to support fair decision-making for robots. To validate FSPGRL’s effectiveness, a human-centered service scenario, ‘A robot is serving people in a restaurant,’ was designed. A user study was conducted; 24 human subjects participated in generating 1,000 service demonstrations. Four commonly-seen issues ‘Willingness Issue,’ ‘Priority Issue,’ ‘Quality Issue,’ ‘Risk Issue’ were observed from robot behaviors. By using FSPGRL to improve robot decisions, robots were proven to have a self-bias detection capability for a more fair service. We have achieved the suppression of bias and improved the quality during the process of robot learning to realize a relatively fair model.

arxiv情報

著者 Jie Zhu,Mengsha Hu,Xueyao Liang,Amy Zhang,Ruoming Jin,Rui Liu
発行日 2023-06-07 05:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク