Child Speech Recognition in Human-Robot Interaction: Problem Solved?

要約

自動音声認識は、さまざまなベンチマークで成人の英語音声に対して超人的なパフォーマンスを示しますが、子供の音声を入力すると期待外れになります。
これは、子供とロボットの相互作用において長い間妨げられてきました。
Transformer アーキテクチャや前例のない量のトレーニング データの利用可能性など、データ駆動型音声認識の最近の進化は、子供向けの音声認識やソーシャル ロボット アプリケーションの画期的な進歩を意味する可能性があります。
私たちは 2017 年の児童音声認識に関する研究を再検討し、新参の OpenAI Whisper が主要な商用クラウド サービスよりも著しく優れたパフォーマンスを示し、実際にパフォーマンスが向上していることを示しました。
書き起こしはまだ完璧ではありませんが、最良のモデルは、ローカル GPU で実行される 1 秒未満の書き起こし時間で、小さな文法的な違いを除けば文の 60.3% を正しく認識し、自律的な子供とロボットの音声対話が使用できる可能性を示しています。

要約(オリジナル)

Automated Speech Recognition shows superhuman performance for adult English speech on a range of benchmarks, but disappoints when fed children’s speech. This has long sat in the way of child-robot interaction. Recent evolutions in data-driven speech recognition, including the availability of Transformer architectures and unprecedented volumes of training data, might mean a breakthrough for child speech recognition and social robot applications aimed at children. We revisit a study on child speech recognition from 2017 and show that indeed performance has increased, with newcomer OpenAI Whisper doing markedly better than leading commercial cloud services. While transcription is not perfect yet, the best model recognises 60.3% of sentences correctly barring small grammatical differences, with sub-second transcription time running on a local GPU, showing potential for usable autonomous child-robot speech interactions.

arxiv情報

著者 Ruben Janssens,Eva Verhelst,Giulio Antonio Abbo,Qiaoqiao Ren,Maria Jose Pinto Bernal,Tony Belpaeme
発行日 2024-04-26 13:14:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.RO パーマリンク