要約
人間は、音声と非音声の両方を含む音声信号に囲まれています。
音声イベントと非音声イベントの認識と理解、およびそれらの間の関係の深い理解は、基本的な認知能力を構成します。
初めて、概念的に同様の普遍的な音声認識と高度な推論能力を備えた、LTU-AS と呼ばれる機械学習モデルを構築しました。
具体的には、Whisper を認識モジュールとして統合し、LLaMA を推論モジュールとして統合することにより、LTU-AS は、音声テキスト、音声パラ言語、音声以外の音声イベント、つまり音声信号から認識できるほぼすべてのものを同時に認識し、共同で理解することができます。
要約(オリジナル)
Humans are surrounded by audio signals that include both speech and non-speech sounds. The recognition and understanding of speech and non-speech audio events, along with a profound comprehension of the relationship between them, constitute fundamental cognitive capabilities. For the first time, we build a machine learning model, called LTU-AS, that has a conceptually similar universal audio perception and advanced reasoning ability. Specifically, by integrating Whisper as a perception module and LLaMA as a reasoning module, LTU-AS can simultaneously recognize and jointly understand spoken text, speech paralinguistics, and non-speech audio events – almost everything perceivable from audio signals.
arxiv情報
著者 | Yuan Gong,Alexander H. Liu,Hongyin Luo,Leonid Karlinsky,James Glass |
発行日 | 2023-10-02 14:53:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google