Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning

要約

強化学習は、堅牢性と説明可能性に関連するさまざまな環境で課題に直面します。
従来の Q 学習アルゴリズムでは、効果的に意思決定を行ったり、過去の学習経験を活用したりすることができません。
これらの制限を克服するために、私たちは、主観的信念モデリングを Q ラーニング フレームワークに統合し、エージェントに人間のような学習および推論能力を与えることで意思決定の精度を高める認知信念駆動型 Q ラーニング (CBDQ) を提案します。
認知科学からインスピレーションを得た私たちの手法は、クラスターベースの主観的信念モデルを活用して、アクションの期待に対する主観的信念の分布を維持し、エージェントが各決定に関連する潜在的な確率について推論できるようにします。
CBDQ は、過去の経験と現在のコンテキスト情報を統合し、人間の意思決定のダイナミクスを模倣することで、過大評価された現象を効果的に緩和し、意思決定ポリシーを最適化します。
さまざまな複雑な環境における離散制御ベンチマークタスクで提案手法を評価します。
この結果は、CBDQ がこれらの環境に対処する際に、より強力な適応性、堅牢性、および人間に似た特性を示し、他のベースラインよりも優れたパフォーマンスを発揮することを示しています。
私たちは、この研究が研究者に Q ラーニングの理解と説明についての新たな視点を与えることを願っています。

要約(オリジナル)

Reinforcement learning encounters challenges in various environments related to robustness and explainability. Traditional Q-learning algorithms cannot effectively make decisions and utilize the historical learning experience. To overcome these limitations, we propose Cognitive Belief-Driven Q-Learning (CBDQ), which integrates subjective belief modeling into the Q-learning framework, enhancing decision-making accuracy by endowing agents with human-like learning and reasoning capabilities. Drawing inspiration from cognitive science, our method maintains a subjective belief distribution over the expectation of actions, leveraging a cluster-based subjective belief model that enables agents to reason about the potential probability associated with each decision. CBDQ effectively mitigates overestimated phenomena and optimizes decision-making policies by integrating historical experiences with current contextual information, mimicking the dynamics of human decision-making. We evaluate the proposed method on discrete control benchmark tasks in various complicate environments. The results demonstrate that CBDQ exhibits stronger adaptability, robustness, and human-like characteristics in handling these environments, outperforming other baselines. We hope this work will give researchers a fresh perspective on understanding and explaining Q-learning.

arxiv情報

著者 Xingrui Gu,Guanren Qiao,Chuyi Jiang,Tianqing Xia,Hangyu Mao
発行日 2024-10-02 16:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク