要約
しばしば時系列予測タスクとしてフレーム化された最近の模倣学習ポリシーは、高次元の視覚データとしてロボット観測を直接マッピングし、アクション空間に固有受容をマッピングします。
時系列の予測は主に空間ドメインモデリングに依存していますが、ロボット操作の軌跡予測における周波数ドメイン分析の十分に活用されると、アクションシーケンス内に埋め込まれた固有の時間情報を無視することにつながる可能性があります。
これに対処するために、周波数ドメインのレンズを通して模倣学習ポリシーを再構成し、ウェーブレットポリシーを導入します。
この新しいアプローチでは、SE2MD(単一エンコーダーから複数のデコーダーまで)アーキテクチャを使用して、特徴前処理にウェーブレット変換(WT)を使用し、周波数ドメインからマルチスケール機能を抽出します。
さらに、周波数ドメインでの特徴マッピングを強化し、モデル容量を増加させるために、各周波数デコーダーの後に学習可能な周波数ドメインフィルター(LFDF)を導入し、異なる視覚条件下で適応性を向上させます。
我々の結果は、ウェーブレットポリシーが、同等のパラメーターカウントを維持しながら、4つの挑戦的なロボットアームタスクで最先端の(SOTA)エンドツーエンドのメソッドを10%以上上回ることを示しています。
長距離設定では、タスクのボリュームが増加するにつれて、パフォーマンスはゆっくりと低下します。
コードは公開されます。
要約(オリジナル)
Recent imitation learning policies, often framed as time series prediction tasks, directly map robotic observations-such as high-dimensional visual data and proprioception-into the action space. While time series prediction primarily relies on spatial domain modeling, the underutilization of frequency domain analysis in robotic manipulation trajectory prediction may lead to neglecting the inherent temporal information embedded within action sequences. To address this, we reframe imitation learning policies through the lens of the frequency domain and introduce the Wavelet Policy. This novel approach employs wavelet transforms (WT) for feature preprocessing and extracts multi-scale features from the frequency domain using the SE2MD (Single Encoder to Multiple Decoder) architecture. Furthermore, to enhance feature mapping in the frequency domain and increase model capacity, we introduce a Learnable Frequency-Domain Filter (LFDF) after each frequency decoder, improving adaptability under different visual conditions. Our results show that the Wavelet Policy outperforms state-of-the-art (SOTA) end-to-end methods by over 10% on four challenging robotic arm tasks, while maintaining a comparable parameter count. In long-range settings, its performance declines more slowly as task volume increases. The code will be publicly available.
arxiv情報
著者 | Changchuan Yang,Yuhang Dong,Guanzhong Tian,Haizhou Ge,Hongrui Zhu |
発行日 | 2025-04-07 12:16:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google