Eliciting Risk Aversion with Inverse Reinforcement Learning via Interactive Questioning

要約

この論文では、対話型の質問を使用してエージェントのリスク回避を特定するための新しいフレームワークを提案します。
私たちの研究は、1 周期の場合と無限の期間の場合の 2 つのシナリオで行われます。
1 期間のケースでは、エージェントのリスク回避が状態のコスト関数と歪みリスク尺度によって特徴付けられると仮定します。
無限の地平線のケースでは、追加のコンポーネントである割引係数を使用してリスク回避をモデル化します。
エージェントの真のリスク回避を含む有限の候補セットにアクセスできると仮定すると、エージェントにさまざまな環境で最適なポリシーをデモンストレーションするよう依頼することが、エージェントのリスク回避を識別する効果的な手段であることを示します。
具体的には、質問の数が無限になる傾向があり、質問がランダムに設計されているため、エージェントのリスク回避を特定できることを証明します。
また、最適な質問を設計するためのアルゴリズムを開発し、シミュレーションでランダムに設計された質問よりも、私たちの方法がリスク回避を大幅に速く学習するという経験的証拠を提供します。
私たちのフレームワークにはロボアドバイスにおける重要な応用があり、エージェントのリスク選好を特定するための新しいアプローチを提供します。

要約(オリジナル)

This paper proposes a novel framework for identifying an agent’s risk aversion using interactive questioning. Our study is conducted in two scenarios: a one-period case and an infinite horizon case. In the one-period case, we assume that the agent’s risk aversion is characterized by a cost function of the state and a distortion risk measure. In the infinite horizon case, we model risk aversion with an additional component, a discount factor. Assuming the access to a finite set of candidates containing the agent’s true risk aversion, we show that asking the agent to demonstrate her optimal policies in various environment, which may depend on their previous answers, is an effective means of identifying the agent’s risk aversion. Specifically, we prove that the agent’s risk aversion can be identified as the number of questions tends to infinity, and the questions are randomly designed. We also develop an algorithm for designing optimal questions and provide empirical evidence that our method learns risk aversion significantly faster than randomly designed questions in simulations. Our framework has important applications in robo-advising and provides a new approach for identifying an agent’s risk preferences.

arxiv情報

著者 Ziteng Cheng,Anthony Coache,Sebastian Jaimungal
発行日 2023-08-16 15:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク