要約
部分的に観察可能なマルコフ意思決定プロセスでは、エージェントの履歴をメモリに統合することが意思決定に重大な課題をもたらします。
専門家によるデモンストレーションの観察と行動のペアに依存する従来の模倣学習では、意思決定に使用される専門家の記憶メカニズムを捉えることができません。
記憶プロセスをデモンストレーションとして捉えるために、時刻 $p$ のイベントが時刻 $q$ での意思決定のために呼び戻されることを示す記憶依存関係ペア $(p, q)$ の概念を導入します。
Transformers でメモリ依存関係のペアを活用するための tentionTuner を導入し、Memory Gym と Long-term Memory Benchmark で評価すると、標準の Transformers と比較していくつかのタスクにわたって大幅な改善が見られます。
コードは https://github.com/WilliamYue37/Attender で入手できます。
要約(オリジナル)
In Partially Observable Markov Decision Processes, integrating an agent’s history into memory poses a significant challenge for decision-making. Traditional imitation learning, relying on observation-action pairs for expert demonstrations, fails to capture the expert’s memory mechanisms used in decision-making. To capture memory processes as demonstrations, we introduce the concept of memory dependency pairs $(p, q)$ indicating that events at time $p$ are recalled for decision-making at time $q$. We introduce AttentionTuner to leverage memory dependency pairs in Transformers and find significant improvements across several tasks compared to standard Transformers when evaluated on Memory Gym and the Long-term Memory Benchmark. Code is available at https://github.com/WilliamYue37/AttentionTuner.
arxiv情報
著者 | William Yue,Bo Liu,Peter Stone |
発行日 | 2024-11-13 02:56:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google