要約
この論文では、デモンストレーションからのロボット学習 (LfD) における長時間シーケンス タスクに対する Transformer-XL の革新的なアプリケーションを紹介します。
提案されたフレームワークは、RGB-D 画像、LiDAR、触覚センサーなどのマルチモーダル センサー入力を効果的に統合し、包括的な特徴ベクトルを構築します。
Transformer-XL の高度な機能、特に注意メカニズムと位置エンコーディングを活用することで、私たちのアプローチは、マルチモーダル感覚データに固有の複雑さと長期的な依存関係に対処できます。
広範な実証的評価の結果は、長短期記憶 (LSTM) ネットワークや畳み込みニューラル ネットワーク (CNN) などの従来の方法と比較して、タスクの成功率、精度、計算効率が大幅に向上していることを示しています。
この調査結果は、Transformer-XL ベースのフレームワークがロボットの知覚能力と意思決定能力を強化するだけでなく、デモンストレーションからのロボット学習の将来の進歩のための強固な基盤を提供することを示しています。
要約(オリジナル)
This paper presents an innovative application of Transformer-XL for long sequence tasks in robotic learning from demonstrations (LfD). The proposed framework effectively integrates multi-modal sensor inputs, including RGB-D images, LiDAR, and tactile sensors, to construct a comprehensive feature vector. By leveraging the advanced capabilities of Transformer-XL, particularly its attention mechanism and position encoding, our approach can handle the inherent complexities and long-term dependencies of multi-modal sensory data. The results of an extensive empirical evaluation demonstrate significant improvements in task success rates, accuracy, and computational efficiency compared to conventional methods such as Long Short-Term Memory (LSTM) networks and Convolutional Neural Networks (CNNs). The findings indicate that the Transformer-XL-based framework not only enhances the robot’s perception and decision-making abilities but also provides a robust foundation for future advancements in robotic learning from demonstrations.
arxiv情報
著者 | Gao Tianci |
発行日 | 2024-05-24 13:49:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google