要約
高次元のモーション生成には、滑らかで衝突のないソリューションを実現するための数値精度が必要です。
通常、倍精度または単精度浮動小数点 (FP) 形式が使用されます。
これらを大きなテンソルに使用すると、デバイスによって提供されるメモリ帯域幅に負担がかかり、メモリのフットプリントが変化するため、モバイル ロボットに必要な低電力エッジ デバイスへの適用が制限されます。
低減された精度を均一に適用すると有利な場合もありますが、ソリューションの品質が大幅に低下します。
重要なテンソルに対して精度を下げたデータ型を使用し、メモリのボトルネックを取り除くことでモーション生成を高速化することを提案します。
テンソル全体にわたる FP データ型の一意の組み合わせ約 400 万の広大な検索空間から、大きなテンソルに適切な精度を決定する可変精度 (VaPr) 検索最適化を提案します。
効率を向上させるために、すぐに使用できる GPU の高速化のための既存のプラットフォーム サポートを利用し、現在サポートされていない GPU タイプの予想される高精度コンバータ ユニットを評価します。
8 つの環境にわたる MotionBenchmaker データセット上の Franka Panda ロボットの 800 の計画問題に関する実験結果は、モーション生成スタック内の最大のテンソル セットには 4 ビット FP 形式で十分であることを示しています。
ソフトウェアのみのソリューションを使用した場合、VaPr は、Jetson Orin および RTX2080 Ti GPU 上の SOTA ソリューション (CuRobo) と比較して、モーション生成の重要な部分でそれぞれ平均 6.3% および 6.3% の高速化を達成し、
FPコンバーター。
要約(オリジナル)
High-dimensional motion generation requires numerical precision for smooth, collision-free solutions. Typically, double-precision or single-precision floating-point (FP) formats are utilized. Using these for big tensors imposes a strain on the memory bandwidth provided by the devices and alters the memory footprint, hence limiting their applicability to low-power edge devices needed for mobile robots. The uniform application of reduced precision can be advantageous but severely degrades solutions. Using decreased precision data types for important tensors, we propose to accelerate motion generation by removing memory bottlenecks. We propose variable-precision (VaPr) search optimization to determine the appropriate precision for large tensors from a vast search space of approximately 4 million unique combinations for FP data types across the tensors. To obtain the efficiency gains, we exploit existing platform support for an out-of-the-box GPU speedup and evaluate prospective precision converter units for GPU types that are not currently supported. Our experimental results on 800 planning problems for the Franka Panda robot on the MotionBenchmaker dataset across 8 environments show that a 4-bit FP format is sufficient for the largest set of tensors in the motion generation stack. With the software-only solution, VaPr achieves 6.3% and 6.3% speedups on average for a significant portion of motion generation over the SOTA solution (CuRobo) on Jetson Orin and RTX2080 Ti GPU, respectively, and 9.9%, 17.7% speedups with the FP converter.
arxiv情報
著者 | Yu-Shun Hsiao,Siva Kumar Sastry Hari,Balakumar Sundaralingam,Jason Yik,Thierry Tambe,Charbel Sakr,Stephen W. Keckler,Vijay Janapa Reddi |
発行日 | 2023-10-11 19:56:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google