Joint Audio and Speech Understanding

要約

人間は、音声と非音声の両方を含む音声信号に囲まれています。
音声イベントと非音声イベントの認識と理解、およびそれらの間の関係の深い理解は、基本的な認知能力を構成します。
初めて、概念的に同様の普遍的な音声認識と高度な推論能力を備えた、LTU-AS と呼ばれる機械学習モデルを構築しました。
具体的には、Whisper を認識モジュールとして統合し、LLaMA を推論モジュールとして統合することにより、LTU-AS は、音声テキスト、音声パラ言語、音声以外の音声イベント、つまり音声信号から認識できるほぼすべてのものを同時に認識し、共同で理解することができます。

要約(オリジナル)

Humans are surrounded by audio signals that include both speech and non-speech sounds. The recognition and understanding of speech and non-speech audio events, along with a profound comprehension of the relationship between them, constitute fundamental cognitive capabilities. For the first time, we build a machine learning model, called LTU-AS, that has a conceptually similar universal audio perception and advanced reasoning ability. Specifically, by integrating Whisper as a perception module and LLaMA as a reasoning module, LTU-AS can simultaneously recognize and jointly understand spoken text, speech paralinguistics, and non-speech audio events – almost everything perceivable from audio signals.

arxiv情報

著者 Yuan Gong,Alexander H. Liu,Hongyin Luo,Leonid Karlinsky,James Glass
発行日 2023-10-02 14:53:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク