Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors

要約

神経科学における意思決定を研究する伝統的なアプローチは、動物が明確な報酬を得るために反復的で定型化された行動を行う、単純化された行動課題に焦点を当てている。このような方法は有益ではあるが、意思決定についての理解を、明確な目標によって駆動される短い時間スケールの行動に限定してしまう。自然環境では、動物はより複雑で長期的な行動をとるが、それはしばしば観察できない内発的な動機によるものである。時変逆強化学習(IRL)の最近の研究は、長期的で自由に動く行動における動機の移り変わりを捉えることを目的としている。しかし、動物は現在の状態だけでなく、その履歴に基づいて意思決定を行うという重要な課題が残されている。この課題を解決するために、我々はSWIRL(SWitching IRL)を導入する。SWIRLは、時間変化する履歴依存の報酬関数を組み込むことで、従来のIRLを拡張した新しいフレームワークである。SWIRLは長い行動系列を短期的な意思決定過程間の遷移としてモデル化し、それぞれが固有の報酬関数によって支配されます。SWIRLは生物学的に妥当な履歴依存性を組み込むことで、過去の意思決定や環境コンテクストがどのように行動を形成するかを捉え、動物の意思決定をより正確に記述します。SWIRLをシミュレーションと実世界の動物行動データセットに適用し、履歴依存性を欠くモデルよりも定量的にも定性的にも優れていることを示す。本研究は、動物の複雑で自然主義的な意思決定に関する理解を深めるために、履歴依存の方針と報酬を組み込んだ初めてのIRLモデルを提示する。

要約(オリジナル)

Traditional approaches to studying decision-making in neuroscience focus on simplified behavioral tasks where animals perform repetitive, stereotyped actions to receive explicit rewards. While informative, these methods constrain our understanding of decision-making to short timescale behaviors driven by explicit goals. In natural environments, animals exhibit more complex, long-term behaviors driven by intrinsic motivations that are often unobservable. Recent works in time-varying inverse reinforcement learning (IRL) aim to capture shifting motivations in long-term, freely moving behaviors. However, a crucial challenge remains: animals make decisions based on their history, not just their current state. To address this, we introduce SWIRL (SWitching IRL), a novel framework that extends traditional IRL by incorporating time-varying, history-dependent reward functions. SWIRL models long behavioral sequences as transitions between short-term decision-making processes, each governed by a unique reward function. SWIRL incorporates biologically plausible history dependency to capture how past decisions and environmental contexts shape behavior, offering a more accurate description of animal decision-making. We apply SWIRL to simulated and real-world animal behavior datasets and show that it outperforms models lacking history dependency, both quantitatively and qualitatively. This work presents the first IRL model to incorporate history-dependent policies and rewards to advance our understanding of complex, naturalistic decision-making in animals.

arxiv情報

著者 Jingyang Ke,Feiyang Wu,Jiyi Wang,Jeffrey Markowitz,Anqi Wu
発行日 2025-06-03 17:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク