Multimodal Human-Autonomous Agents Interaction Using Pre-Trained Language and Visual Foundation Models

要約

この論文では、[21] で提案された方法を拡張して、人間が音声およびテキストによる会話を通じて自律エージェントと自然に対話できるようにしました。
私たちの拡張メソッドは、事前トレーニングされた大規模言語モデル (LLM)、マルチモーダル視覚言語モデル (VLM)、および音声認識 (SR) モデルの固有の機能を利用して、高レベルの自然言語会話とロボットのタスク環境の意味理解を解読します。
、それらをロボットの実行可能なコマンドまたはクエリに抽象化します。
私たちは、さまざまな人種的背景や英語のアクセントを持つ参加者とのフレームワークの自然な音声会話の理解の定量的評価を実行しました。
参加者は音声とテキストの両方の指示コマンドを使用してロボットと対話しました。
ログに記録されたインタラクション データに基づいて、当社のフレームワークは音声コマンドのデコード精度 87.55%、コマンド実行成功率 86.27%、参加者の音声チャット コマンドの受信からロボットの実際の物理的動作の開始までの平均遅延 0.89 秒を達成しました。
この論文のビデオデモは https://linusnep.github.io/MTCC-IRoNL/ でご覧いただけます。

要約(オリジナル)

In this paper, we extended the method proposed in [21] to enable humans to interact naturally with autonomous agents through vocal and textual conversations. Our extended method exploits the inherent capabilities of pre-trained large language models (LLMs), multimodal visual language models (VLMs), and speech recognition (SR) models to decode the high-level natural language conversations and semantic understanding of the robot’s task environment, and abstract them to the robot’s actionable commands or queries. We performed a quantitative evaluation of our framework’s natural vocal conversation understanding with participants from different racial backgrounds and English language accents. The participants interacted with the robot using both spoken and textual instructional commands. Based on the logged interaction data, our framework achieved 87.55% vocal commands decoding accuracy, 86.27% commands execution success, and an average latency of 0.89 seconds from receiving the participants’ vocal chat commands to initiating the robot’s actual physical action. The video demonstrations of this paper can be found at https://linusnep.github.io/MTCC-IRoNL/.

arxiv情報

著者 Linus Nwankwo,Elmar Rueckert
発行日 2024-12-29 10:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク