D-RMGPT: Robot-assisted collaborative tasks driven by large multimodal models

要約

人間の仕事や日常業務を支援する協働ロボットの人気が高まっています。
ただし、人間とロボットのコラボレーションのためのインターフェイスの設計と設定は困難であり、認識やロボットのタスク制御からハードウェア自体に至るまで、複数のコンポーネントを統合する必要があります。
多くの場合、これは、大量の高価なトレーニング データに依存する高度にカスタマイズされたソリューションにつながり、人間と自然に連携できる非構造化環境をロボットが認識して適応できるようにする柔軟で汎用的なインターフェイスの理想から逸脱します。
これらの課題を克服するために、このペーパーでは、大規模マルチモーダル モデル (LMM) に基づくロボット支援組立プランナーである検出ロボット管理 GPT (D-RMGPT) を紹介します。
このシステムは、マーカーや事前のトレーニングを必要とせずに、経験の浅いオペレーターの組み立て作業を支援できます。
D-RMGPT は DetGPT-V と R-ManGPT から構成されます。
DetGPT-V は、GPT-4V(ビジョン) に基づいており、現在の組み立て段階のプロンプト画像と組み立てられるコンポーネントのリストのワンショット分析を通じて周囲の環境を認識します。
機能と組み立て要件を分析することで、どのコンポーネントがすでに組み立てられているかを特定します。
R-ManGPT は GPT-4 に基づいており、次に組み立てられるコンポーネントを計画し、ロボットの個別の動作を生成して、それを人間の同僚に提供します。
おもちゃの飛行機の組み立てに関する実験テストでは、D-RMGPT が柔軟で直感的に使用できることが実証され、83% の組み立て成功率を達成し、経験の浅いオペレーターによる組み立て時間を手動プロセスと比較して 33% 短縮しました。
http://robotics-and-ai.github.io/LMMmodels/

要約(オリジナル)

Collaborative robots are increasingly popular for assisting humans at work and daily tasks. However, designing and setting up interfaces for human-robot collaboration is challenging, requiring the integration of multiple components, from perception and robot task control to the hardware itself. Frequently, this leads to highly customized solutions that rely on large amounts of costly training data, diverging from the ideal of flexible and general interfaces that empower robots to perceive and adapt to unstructured environments where they can naturally collaborate with humans. To overcome these challenges, this paper presents the Detection-Robot Management GPT (D-RMGPT), a robot-assisted assembly planner based on Large Multimodal Models (LMM). This system can assist inexperienced operators in assembly tasks without requiring any markers or previous training. D-RMGPT is composed of DetGPT-V and R-ManGPT. DetGPT-V, based on GPT-4V(vision), perceives the surrounding environment through one-shot analysis of prompted images of the current assembly stage and the list of components to be assembled. It identifies which components have already been assembled by analysing their features and assembly requirements. R-ManGPT, based on GPT-4, plans the next component to be assembled and generates the robot’s discrete actions to deliver it to the human co-worker. Experimental tests on assembling a toy aircraft demonstrated that D-RMGPT is flexible and intuitive to use, achieving an assembly success rate of 83% while reducing the assembly time for inexperienced operators by 33% compared to the manual process. http://robotics-and-ai.github.io/LMMmodels/

arxiv情報

著者 M. Forlini,M. Babcinschi,G. Palmieri,P. Neto
発行日 2024-08-21 16:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク