Integrating Persian Lip Reading in Surena-V Humanoid Robot for Human-Robot Interaction

要約

リップリーディングは、ソーシャル環境のロボットにとって不可欠であり、人間のコミュニケーションを理解する能力を向上させます。
このスキルにより、混雑した環境、特に介護や顧客サービスの役割でより簡単にコミュニケーションをとることができます。
ペルシャのリップリーディングデータセットを生成するこの研究では、ペルシャ語のリップリーディングテクノロジーをSurena-Vヒューマノイドロボットに統合して、音声認識能力を向上させます。
2つの補完的な方法が検討されています。顔のランドマーク追跡を使用した間接的な方法と、畳み込みニューラルネットワーク(CNNS)と長期記憶(LSTM)ネットワークを活用する直接的な方法です。
間接的な方法は、特に唇の周りの重要な顔のランドマークの追跡に焦点を当てて動きを推測し、直接的な方法はアクションと音声認識のために生のビデオデータを処理します。
最高のパフォーマンスモデルであるLSTMは、89%の精度を達成し、リアルタイムのヒューマンロボット相互作用のためにSurena-Vロボットに正常に実装されました。
この研究では、特に口頭でのコミュニケーションが限られている環境では、これらの方法の有効性を強調しています。

要約(オリジナル)

Lip reading is vital for robots in social settings, improving their ability to understand human communication. This skill allows them to communicate more easily in crowded environments, especially in caregiving and customer service roles. Generating a Persian Lip-reading dataset, this study integrates Persian lip-reading technology into the Surena-V humanoid robot to improve its speech recognition capabilities. Two complementary methods are explored, an indirect method using facial landmark tracking and a direct method leveraging convolutional neural networks (CNNs) and long short-term memory (LSTM) networks. The indirect method focuses on tracking key facial landmarks, especially around the lips, to infer movements, while the direct method processes raw video data for action and speech recognition. The best-performing model, LSTM, achieved 89\% accuracy and has been successfully implemented into the Surena-V robot for real-time human-robot interaction. The study highlights the effectiveness of these methods, particularly in environments where verbal communication is limited.

arxiv情報

著者 Ali Farshian Abbasi,Aghil Yousefi-Koma,Soheil Dehghani Firouzabadi,Parisa Rashidi,Alireza Naeini
発行日 2025-01-23 10:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク