Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions for Enhanced Sociability

要約

人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅に高めることができます。
人間は環境上の出来事に非常に素早く、何も考えずに反応できます。
人間が自然な反応を示す例としては、突然大きな音に遭遇したとき、驚かせたり怖がらせたりする場合があります。
そのような瞬間に、人は本能的に手を動かし、音の発生源の方を向き、その出来事の原因を突き止めようとすることがあります。
この固有の動作は、ソーシャル ロボット工学のこのあまり研究されていない部分を調査する動機を私たちに与えました。
この研究では、アクション ジェネレーター、音声分類器、YOLO オブジェクト検出器で構成されるマルチモーダル システムが、環境を感知し、突然の大きな音の存在下で人間の自然な恐怖反応を示し、最終的に恐怖の場所を特定するように設計されています。
-環境内の音源の原因となる。
これらのユニークで有効な生成された動作と推論は、人間の固有の反応を模倣し、ロボットの社交性を高めることができます。
動作生成に関しては、LSTM および MDN ネットワークに基づくモデルが提案され、さまざまな動作を合成します。
また、音検出の場合は、音信号のスペクトログラムを入力として使用する伝達学習モデルが好まれました。
音検出、動作生成、画像認識のための個別のモデルを開発した後、それらは NAO ロボットに実装された包括的な恐怖モジュールに統合されました。
最後に、恐怖モジュールは実際のアプリケーションでテストされ、専門家と非専門家の 2 つのグループがロボットの性能を評価するためのアンケートに記入しました。
私たちの有望な結果を考えると、この予備的な探索的研究はソーシャルロボット工学に対する新たな視点を提供し、ロボットにおける人間の本質的な行動と感情をモデル化するための出発点となる可能性があります。

要約(オリジナル)

Robots’ acceptability among humans and their sociability can be significantly enhanced by incorporating human-like reactions. Humans can react to environmental events very quickly and without thinking. An instance where humans display natural reactions is when they encounter a sudden and loud sound that startles or frightens them. During such moments, individuals may instinctively move their hands, turn toward the origin of the sound, and try to determine the event’s cause. This inherent behavior motivated us to explore this less-studied part of social robotics. In this work, a multi-modal system composed of an action generator, sound classifier, and YOLO object detector was designed to sense the environment and, in the presence of sudden loud sounds, show natural human fear reactions, and finally, locate the fear-causing sound source in the environment. These unique and valid generated motions and inferences could imitate intrinsic human reactions and enhance the sociability of robots. For motion generation, a model based on LSTM and MDN networks was proposed to synthesize various motions. Also, in the case of sound detection, a transfer learning model was preferred that used the spectrogram of sound signals as its input. After developing individual models for sound detection, motion generation, and image recognition, they were integrated into a comprehensive fear module that was implemented on the NAO robot. Finally, the fear module was tested in practical application and two groups of experts and non-experts filled out a questionnaire to evaluate the performance of the robot. Given our promising results, this preliminary exploratory research provides a fresh perspective on social robotics and could be a starting point for modeling intrinsic human behaviors and emotions in robots.

arxiv情報

著者 Ali Ghadami,Mohammadreza Taghimohammadi,Mohammad Mohammadzadeh,Mohammad Hosseinipour,Alireza Taheri
発行日 2023-12-12 19:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.LG, cs.RO, cs.SD, eess.AS, eess.IV パーマリンク