要約
建設タスクは本質的に予測不可能であり、動的な環境と安全性の高い要求が労働者に重大なリスクをもたらします。
Exoskeletonsは潜在的な支援を提供しますが、多様な移動モード全体で正確な意図的な認識なしに動揺します。
このホワイトペーパーでは、そのような設定での外骨格支援の改善を目的としたメモリシステムで増強された大規模な言語モデル(LLMS)を活用する移動予測エージェントを紹介します。
マルチモーダル入力 – 音声コマンドとスマートグラスからの視覚データ – エージェントは、知覚モジュール、短期メモリ(STM)、長期メモリ(LTM)、および洗練モジュールを統合して、移動モードを効果的に予測します。
評価により、メモリなしで0.73のベースライン加重F1スコアが明らかになり、STMで0.81に上昇し、STMとLTMの両方で0.90に達し、あいまいで安全性の高いコマンドで優れています。
Brierスコアが0.244から0.090に低下し、ECEが0.222から0.044に低下することを含むキャリブレーションメトリックは、信頼性の向上を確認します。
このフレームワークは、ダイナミック産業の適応補助システムを約束して、より安全で高レベルの人間とエキゾスケレトンのコラボレーションをサポートしています。
要約(オリジナル)
Construction tasks are inherently unpredictable, with dynamic environments and safety-critical demands posing significant risks to workers. Exoskeletons offer potential assistance but falter without accurate intent recognition across diverse locomotion modes. This paper presents a locomotion prediction agent leveraging Large Language Models (LLMs) augmented with memory systems, aimed at improving exoskeleton assistance in such settings. Using multimodal inputs – spoken commands and visual data from smart glasses – the agent integrates a Perception Module, Short-Term Memory (STM), Long-Term Memory (LTM), and Refinement Module to predict locomotion modes effectively. Evaluation reveals a baseline weighted F1-score of 0.73 without memory, rising to 0.81 with STM, and reaching 0.90 with both STM and LTM, excelling with vague and safety-critical commands. Calibration metrics, including a Brier Score drop from 0.244 to 0.090 and ECE from 0.222 to 0.044, affirm improved reliability. This framework supports safer, high-level human-exoskeleton collaboration, with promise for adaptive assistive systems in dynamic industries.
arxiv情報
著者 | Ehsan Ahmadi,Chao Wang |
発行日 | 2025-04-21 17:45:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google