A Sign Language Recognition System with Pepper, Lightweight-Transformer, and LLM

要約

この研究では、軽量ディープ ニューラル ネットワーク アーキテクチャを使用して、人型ロボット Pepper がアメリカ手話 (ASL) を理解し、非言語的な人間とロボットの対話を促進できるようにすることを検討しています。
まず、組み込みシステム向けに最適化された ASL 理解のための軽量で効率的なモデルを導入し、計算リソースを節約しながら迅速な標識認識を保証します。
これに基づいて、インテリジェントなロボット対話のために大規模言語モデル (LLM) を採用しています。
複雑なプロンプト エンジニアリングを通じて、Pepper ロボットが自然な共同スピーチ ジェスチャー応答を生成できるようにインタラクションを調整し、より有機的で直感的なヒューマノイドとロボットの対話の基礎を築きます。
最後に、社会を意識した AI インタラクション モデルの進歩を具体化した統合ソフトウェア パイプラインを紹介します。
Pepper ロボットの機能を活用して、現実世界のシナリオにおけるアプローチの実用性と有効性を実証します。
この結果は、非言語的な対話を通じて人間とロボットの対話を強化し、コミュニケーションのギャップを埋め、テクノロジーをよりアクセスしやすく理解しやすくするという大きな可能性を浮き彫りにしました。

要約(オリジナル)

This research explores using lightweight deep neural network architectures to enable the humanoid robot Pepper to understand American Sign Language (ASL) and facilitate non-verbal human-robot interaction. First, we introduce a lightweight and efficient model for ASL understanding optimized for embedded systems, ensuring rapid sign recognition while conserving computational resources. Building upon this, we employ large language models (LLMs) for intelligent robot interactions. Through intricate prompt engineering, we tailor interactions to allow the Pepper Robot to generate natural Co-Speech Gesture responses, laying the foundation for more organic and intuitive humanoid-robot dialogues. Finally, we present an integrated software pipeline, embodying advancements in a socially aware AI interaction model. Leveraging the Pepper Robot’s capabilities, we demonstrate the practicality and effectiveness of our approach in real-world scenarios. The results highlight a profound potential for enhancing human-robot interaction through non-verbal interactions, bridging communication gaps, and making technology more accessible and understandable.

arxiv情報

著者 JongYoon Lim,Inkyu Sa,Bruce MacDonald,Ho Seok Ahn
発行日 2023-09-28 23:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.HC, cs.RO パーマリンク