Multi-Objective Decision Transformers for Offline Reinforcement Learning

要約

オフライン強化学習 (RL) は、リアルタイムの環境インタラクションを必要とせずに、静的な軌道データからポリシーを導き出すように構造化されています。
最近の研究では、オフライン RL をシーケンス モデリング タスクとしてフレーム化する実現可能性が示されています。その唯一の目的は、トランスフォーマー アーキテクチャを使用して事前のコンテキストに基づいてアクションを予測することです。
ただし、この単一タスク学習アプローチの制限は、トランスフォーマー モデルの注意メカニズムを損なう可能性があることです。理想的には、最適な予測を行うために、入力コンテキスト内のさまざまなトークンにさまざまな注意の重みを割り当てる必要があります。
これに対処するために、オフライン RL を多目的最適化問題として再定式化し、予測を状態と戻り値に拡張します。
また、シーケンス モデリングに使用される軌跡表現に潜在的な欠陥があることも強調します。これにより、状態と戻り値の分布をモデル化するときに不正確さが生じる可能性があります。
これは、行動ポリシーによって決定された軌道内のアクションの分布が滑らかではないためです。
この問題を軽減するために、軌道表現にアクション スペース領域を導入します。
D4RL ベンチマーク移動タスクに関する私たちの実験では、私たちの提案によりトランス モデルのアテンション メカニズムをより効果的に利用できるようになり、現在の最先端の方法と同等またはそれを上回るパフォーマンスが得られることが明らかになりました。

要約(オリジナル)

Offline Reinforcement Learning (RL) is structured to derive policies from static trajectory data without requiring real-time environment interactions. Recent studies have shown the feasibility of framing offline RL as a sequence modeling task, where the sole aim is to predict actions based on prior context using the transformer architecture. However, the limitation of this single task learning approach is its potential to undermine the transformer model’s attention mechanism, which should ideally allocate varying attention weights across different tokens in the input context for optimal prediction. To address this, we reformulate offline RL as a multi-objective optimization problem, where the prediction is extended to states and returns. We also highlight a potential flaw in the trajectory representation used for sequence modeling, which could generate inaccuracies when modeling the state and return distributions. This is due to the non-smoothness of the action distribution within the trajectory dictated by the behavioral policy. To mitigate this issue, we introduce action space regions to the trajectory representation. Our experiments on D4RL benchmark locomotion tasks reveal that our propositions allow for more effective utilization of the attention mechanism in the transformer model, resulting in performance that either matches or outperforms current state-of-the art methods.

arxiv情報

著者 Abdelghani Ghanem,Philippe Ciblat,Mounir Ghogho
発行日 2023-08-31 00:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク