Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability

要約

人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅に高めることができます。
人間は環境上の出来事に非常に素早く、何も考えずに反応できます。
人間が自然な反応を示す例としては、突然大きな音に遭遇したとき、驚かせたり怖がらせたりする場合があります。
そのような瞬間に、人は本能的に手を動かし、音の発生源の方を向き、その出来事の原因を突き止めようとすることがあります。
この固有の行動は、私たちがソーシャル ロボット工学のこのあまり研究されていない部分を探求する動機を与えました。
この研究では、アクション ジェネレーター、音声分類器、YOLO オブジェクト検出器で構成されるマルチモーダル システムが、環境を感知し、突然の大きな音の存在下で人間の自然な恐怖反応を示すように設計されました。
そして最後に、環境内で恐怖を引き起こす音源を特定します。
これらの有効に生成された動作と推論は、人間の固有の反応を模倣し、ロボットの社交性を高めることができます。
動きの生成については、LSTM と MDN ネットワークに基づくモデルが提案され、さまざまな動きを合成します。
また、音検出の場合には、音信号のスペクトログラムを入力として使用する伝達学習モデルが好まれました。
音検出、動作生成、画像認識のための個別のモデルを開発した後、それらは NAO ロボットに実装された包括的な「恐怖」モジュールに統合されました。
最後に、恐怖モジュールは実際のアプリケーションでテストされ、専門家と非専門家 (ロボット工学分野) の 2 つのグループがロボットの性能を評価するためのアンケートに記入しました。
我々は、提案されたモジュールが、ロボットの周辺環境で突然大きな音が発生した場合に、Nao ロボットが人間のように行動し、判断することを参加者に納得させることができることを示し、さらに、非専門家がソーシャルロボットとそのパフォーマンスについてより高い期待を持っていることを示しました。

要約(オリジナル)

Robots’ acceptability among humans and their sociability can be significantly enhanced by incorporating human-like reactions. Humans can react to environmental events very quickly and without thinking. An instance where humans show natural reactions is when they encounter a sudden and loud sound that startles or frightens them. During such moments, individuals may instinctively move their hands, turn toward the origin of the sound, and try to determine the event’s cause. This inherent behavior motivated us to explore this less-studied part of social robotics. In this work, a multi-modal system composed of an action generator, sound classifier, and YOLO object detector was designed to sense the environment and, in the presence of sudden loud sounds, show natural human fear reactions; and finally, locate the fear-causing sound source in the environment. These valid generated motions and inferences could imitate intrinsic human reactions and enhance the sociability of robots. For motion generation, a model based on LSTM and MDN networks was proposed to synthesize various motions. Also, in the case of sound detection, a transfer learning model was preferred that used the spectrogram of the sound signals as its input. After developing individual models for sound detection, motion generation, and image recognition, they were integrated into a comprehensive ‘fear’ module implemented on the NAO robot. Finally, the fear module was tested in practical application and two groups of experts and non-experts (in the robotics area) filled out a questionnaire to evaluate the performance of the robot. We indicated that the proposed module could convince the participants that the Nao robot acts and reasons like a human when a sudden and loud sound is in the robot’s peripheral environment, and additionally showed that non-experts have higher expectations about social robots and their performance.

arxiv情報

著者 Ali Ghadami,Mohammadreza Taghimohammadi,Mohammad Mohammadzadeh,Mohammad Hosseinipour,Alireza Taheri
発行日 2024-06-05 18:52:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV パーマリンク