Inferring Preferences from Demonstrations in Multi-objective Reinforcement Learning

要約

多くの意思決定の問題には複数の目的があり、異なる目的に対する人間またはエージェントの意思決定者の好みを知ることが常に可能であるとは限りません。
ただし、意思決定者の実証された行動は多くの場合入手可能です。
この研究では、多目的意思決定問題において行動するエージェントの好みをデモンストレーションから推測できる動的重みベースの好み推論 (DWPI) アルゴリズムを提案します。
提案されたアルゴリズムは、深海の宝物、交通、アイテム収集という 3 つの多目的マルコフ決定プロセスで評価され、2 つの既存の選好推論アルゴリズムと比較されます。
経験的な結果は、時間効率と推論精度の両方の点で、ベースライン アルゴリズムと比較して大幅な改善を示しています。
DWPI アルゴリズムは、最適ではないデモンストレーションの設定を推論する際にもパフォーマンスを維持します。
さらに、DWPI アルゴリズムは推論中にユーザーとの対話を必要とせず、デモンストレーションのみが必要です。
アルゴリズムの正しさの証明と複雑さの分析を提供し、さまざまな表現によるデモンストレーションでのパフォーマンスを統計的に評価します。

要約(オリジナル)

Many decision-making problems feature multiple objectives where it is not always possible to know the preferences of a human or agent decision-maker for different objectives. However, demonstrated behaviors from the decision-maker are often available. This research proposes a dynamic weight-based preference inference (DWPI) algorithm that can infer the preferences of agents acting in multi-objective decision-making problems from demonstrations. The proposed algorithm is evaluated on three multi-objective Markov decision processes: Deep Sea Treasure, Traffic, and Item Gathering, and is compared to two existing preference inference algorithms. Empirical results demonstrate significant improvements compared to the baseline algorithms, in terms of both time efficiency and inference accuracy. The DWPI algorithm maintains its performance when inferring preferences for sub-optimal demonstrations. Moreover, the DWPI algorithm does not necessitate any interactions with the user during inference – only demonstrations are required. We provide a correctness proof and complexity analysis of the algorithm and statistically evaluate the performance under different representation of demonstrations.

arxiv情報

著者 Junlin Lu,Patrick Mannion,Karl Mason
発行日 2024-09-30 12:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク