Q-learning with temporal memory to navigate turbulence

要約

乱流環境での嗅覚検索の問題を検討します。
私たちは、臭気刺激のみに応答するエージェントに焦点を当て、空間的知覚にアクセスできず、臭気に関する事前の情報を利用します。
ターゲットへのナビゲーションが、シーケンシャルな意思決定フレームワーク内で堅牢に学習できるかどうかを尋ねます。
私たちは、解釈可能な嗅覚状態の小さなセットを使用して、補強学習アルゴリズムを開発し、現実的な乱流の臭気キューで訓練します。
時間的記憶を導入することにより、少数の嗅覚状態で離散化された臭気痕跡の2つの顕著な特徴が、現実的な臭気プルームでナビゲーションを学ぶのに十分であることを示します。
パフォーマンスは、乱流の臭気のまばらな性質によって決定されます。
プルーム内の空白を無視し、プルームの外側の回復戦略をアクティブにする最適なメモリが存在します。
エージェントに回復戦略を学び、空飛ぶ昆虫で観察される行動と同様に、それが主に横断風を投げかけていることを示すことにより、最高のパフォーマンスを得ることができます。
最適な戦略は、臭気プルームの大幅な変化に対して堅牢であり、異なる環境に適応するにはマイナーなパラメーターチューニングで十分である可能性があることを示唆しています。

要約(オリジナル)

We consider the problem of olfactory searches in a turbulent environment. We focus on agents that respond solely to odor stimuli, with no access to spatial perception nor prior information about the odor. We ask whether navigation to a target can be learned robustly within a sequential decision making framework. We develop a reinforcement learning algorithm using a small set of interpretable olfactory states and train it with realistic turbulent odor cues. By introducing a temporal memory, we demonstrate that two salient features of odor traces, discretized in few olfactory states, are sufficient to learn navigation in a realistic odor plume. Performance is dictated by the sparse nature of turbulent odors. An optimal memory exists which ignores blanks within the plume and activates a recovery strategy outside the plume. We obtain the best performance by letting agents learn their recovery strategy and show that it is mostly casting cross wind, similar to behavior observed in flying insects. The optimal strategy is robust to substantial changes in the odor plumes, suggesting minor parameter tuning may be sufficient to adapt to different environments.

arxiv情報

著者 Marco Rando,Martin James,Alessandro Verri,Lorenzo Rosasco,Agnese Seminara
発行日 2025-01-28 15:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.bio-ph パーマリンク