‘Pass the butter’: A study on desktop-classic multitasking robotic arm based on advanced YOLOv7 and BERT

要約

近年、日常生活や生産現場において、さまざまな自律型知能ロボットが登場し始めています。
デスクトップレベルのロボットは、柔軟な導入、迅速な応答、および軽作業負荷環境への適合性が特徴です。
サービスロボット技術に対する現在の社会的需要を満たすために、この研究では、小型デスクトップレベルロボット(ROSによる)をキャリアとして使用し、自然言語モデル(NLP-BERT)をローカルに展開し、視覚認識を統合する(CV-
YOLO) と音声認識技術 (ASR-Whisper) を入力として利用し、デスクトップロボットによる自律的な意思決定と合理的な行動を実現します。
ロボット アームを検証するために 3 つの包括的な実験が設計され、結果は 3 つの実験すべてでこのアプローチを使用した優れたパフォーマンスを示しています。
タスク 1 では、音声認識とアクションの実行率はそれぞれ 92.6%、84.3% でした。
タスク 2 では、特定の条件下での最高実行率は 92.1% と 84.6% に達し、タスク 3 では最高実行率はそれぞれ 95.2% と 80.8% でした。
したがって、ASR、NLP、その他のテクノロジーをエッジデバイス上で統合する提案されたソリューションは実現可能であり、マルチモーダルデスクトップレベルロボットを実現するための技術的および工学的基盤を提供すると結論付けることができます。

要約(オリジナル)

In recent years, various intelligent autonomous robots have begun to appear in daily life and production. Desktop-level robots are characterized by their flexible deployment, rapid response, and suitability for light workload environments. In order to meet the current societal demand for service robot technology, this study proposes using a miniaturized desktop-level robot (by ROS) as a carrier, locally deploying a natural language model (NLP-BERT), and integrating visual recognition (CV-YOLO) and speech recognition technology (ASR-Whisper) as inputs to achieve autonomous decision-making and rational action by the desktop robot. Three comprehensive experiments were designed to validate the robotic arm, and the results demonstrate excellent performance using this approach across all three experiments. In Task 1, the execution rates for speech recognition and action performance were 92.6% and 84.3%, respectively. In Task 2, the highest execution rates under the given conditions reached 92.1% and 84.6%, while in Task 3, the highest execution rates were 95.2% and 80.8%, respectively. Therefore, it can be concluded that the proposed solution integrating ASR, NLP, and other technologies on edge devices is feasible and provides a technical and engineering foundation for realizing multimodal desktop-level robots.

arxiv情報

著者 Haohua Que,Wenbin Pan,Jie Xu,Hao Luo,Pei Wang,Li Zhang
発行日 2024-05-27 15:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク