Online Pareto-Optimal Decision-Making for Complex Tasks using Active Inference

要約

ロボットが複雑なタスクを自律的に実行する場合、安全性を維持しながら競合する目的のバランスを取る必要が頻繁にあります。
これは、確率的な結果が生じる不確実な環境ではさらに困難になります。
ロボットの動作の透明性を高め、ユーザーの好みに合わせることも重要です。
この論文では、安全なタスクの実行を保証し、目的間のトレードオフを最適化し、ユーザーの好みに従う、多目的強化学習のための新しいフレームワークを紹介します。
フレームワークには、多目的タスク プランナーと高レベル セレクターの 2 つの主要な層があります。
計画層は、時相論理タスクの満足を保証する一連の最適なトレードオフ プランを生成します。
セレクターは、アクティブな推論を使用して、生成されたどのプランがユーザーの好みに最もよく適合し、学習を支援するかを決定します。
フレームワークは反復的に動作し、収集されたデータに基づいてパラメーター化された学習モデルを更新します。
操作ロボットと移動ロボットの両方に関するケーススタディとベンチマークは、私たちのフレームワークが他の方法よりも優れており、(i) 複数の最適なトレードオフを学習し、(ii) ユーザーの好みに準拠し、(iii) ユーザーが次のバランスを調整できることを示しています。
i) および (ii)。

要約(オリジナル)

When a robot autonomously performs a complex task, it frequently must balance competing objectives while maintaining safety. This becomes more difficult in uncertain environments with stochastic outcomes. Enhancing transparency in the robot’s behavior and aligning with user preferences are also crucial. This paper introduces a novel framework for multi-objective reinforcement learning that ensures safe task execution, optimizes trade-offs between objectives, and adheres to user preferences. The framework has two main layers: a multi-objective task planner and a high-level selector. The planning layer generates a set of optimal trade-off plans that guarantee satisfaction of a temporal logic task. The selector uses active inference to decide which generated plan best complies with user preferences and aids learning. Operating iteratively, the framework updates a parameterized learning model based on collected data. Case studies and benchmarks on both manipulation and mobile robots show that our framework outperforms other methods and (i) learns multiple optimal trade-offs, (ii) adheres to a user preference, and (iii) allows the user to adjust the balance between (i) and (ii).

arxiv情報

著者 Peter Amorese,Shohei Wakayama,Nisar Ahmed,Morteza Lahijanian
発行日 2024-06-17 18:03:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク