Does ChatGPT and Whisper Make Humanoid Robots More Relatable?


ヒューマノイド ロボットは、カスタマー サポートやヘルプデスク サービスなどのアプリケーションにおいて、人間と関連付けられるように設計されています。
大規模言語モデル (LLM) の出現は、ヒューマノイド ロボット工学のコミュニケーション障壁を解決できる可能性を示しています。
このペーパーでは、さまざまな自動音声認識 (ASR) API の比較、Whisper ASR および ChatGPT と Pepper ロボットの統合、および 15 人のユーザーによってテストされたシステム (Pepper-GPT) の評価について概説します。
比較結果は、Google ASR と Google Cloud ASR と比較して、Whisper ASR の平均ワード エラー率 (1.716%) と処理時間 (2.639 秒) が両方とも最も低く、最も優れたパフォーマンスを発揮したことを示しています。
参加者のユーザビリティ調査によると、参加者の 60% が Pepper-GPT のパフォーマンスは「優れている」と考え、残りはその後の実験でこのシステムを「良い」と評価しました。


Humanoid robots are designed to be relatable to humans for applications such as customer support and helpdesk services. However, many such systems, including Softbank’s Pepper, fall short because they fail to communicate effectively with humans. The advent of Large Language Models (LLMs) shows the potential to solve the communication barrier for humanoid robotics. This paper outlines the comparison of different Automatic Speech Recognition (ASR) APIs, the integration of Whisper ASR and ChatGPT with the Pepper robot and the evaluation of the system (Pepper-GPT) tested by 15 human users. The comparison result shows that, compared to the Google ASR and Google Cloud ASR, the Whisper ASR performed best as its average Word Error Rate (1.716%) and processing time (2.639 s) are both the lowest. The participants’ usability investigations show that 60% of the participants thought the performance of the Pepper-GPT was ‘excellent’, while the rest rated this system as ‘good’ in the subsequent experiments. It is proved that while some problems still need to be overcome, such as the robot’s multilingual ability and facial tracking capacity, users generally responded positively to the system, feeling like talking to an actual human.


著者 Xiaohui Chen,Katherine Luo,Trevor Gee,Mahla Nejati
発行日 2024-02-11 03:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.HC, cs.RO パーマリンク