要約
本稿では、後期融合戦略を用いてマルチモーダル入力を統合する、ロボットアーム操作のための新しいディープラーニングフレームワークを紹介する。従来のend-to-endアプローチや強化学習アプローチとは異なり、本手法は、事前に学習されたモデルで画像シーケンスを処理し、機械学習アルゴリズムでロボットの状態データを処理し、制御のための連続的なアクション値を予測するためにそれらの出力を融合する。BridgeData V2とKukaデータセットで評価した結果、最良の構成(VGG16+ランダムフォレスト)は、それぞれ0.0021と0.0028のMSEを達成し、強力な予測性能と頑健性を実証した。このフレームワークは、モジュール性、解釈可能性、リアルタイムの意思決定をサポートし、適応的な、ヒューマンインザループのサイバーフィジカルシステムの目標に合致している。
要約(オリジナル)
This paper presents a novel deep learning framework for robotic arm manipulation that integrates multimodal inputs using a late-fusion strategy. Unlike traditional end-to-end or reinforcement learning approaches, our method processes image sequences with pre-trained models and robot state data with machine learning algorithms, fusing their outputs to predict continuous action values for control. Evaluated on BridgeData V2 and Kuka datasets, the best configuration (VGG16 + Random Forest) achieved MSEs of 0.0021 and 0.0028, respectively, demonstrating strong predictive performance and robustness. The framework supports modularity, interpretability, and real-time decision-making, aligning with the goals of adaptive, human-in-the-loop cyber-physical systems.
arxiv情報
著者 | Sathish Kumar,Swaroop Damodaran,Naveen Kumar Kuruba,Sumit Jha,Arvind Ramanathan |
発行日 | 2025-04-04 13:11:43+00:00 |
arxivサイト | arxiv_id(pdf) |