Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

要約

大規模言語モデル (LLM) の最近の進歩はさまざまな領域に革命をもたらし、大きな進歩と新たな機会をもたらしました。
音声関連タスクの進歩にもかかわらず、LLM は複数話者シナリオでは十分に検討されていません。
この研究では、複数話者自動音声認識 (ASR)、ターゲット話者 ASR、および特定の話者の属性に基づく ASR に関連する多彩な命令に従って、複数話者環境で音声を書き写す際の LLM の能力を調査する先駆的な取り組みを紹介します。
性別、出現順序、言語、話されたキーワードなど。
私たちのアプローチでは、WavLM と Whisper エンコーダを利用して、話者の特性と意味論的なコンテキストに敏感な多面的な音声表現を抽出します。
これらの表現は、LoRA を使用して微調整された LLM に入力され、音声理解と文字起こしの機能が可能になります。
包括的な実験により、カクテル パーティーのシナリオにおける私たちの提案システム MT-LLM の有望なパフォーマンスが明らかになり、このような複雑な設定でユーザーの指示に基づいて音声関連タスクを処理する LLM の可能性が強調されます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have revolutionized various domains, bringing significant progress and new opportunities. Despite progress in speech-related tasks, LLMs have not been sufficiently explored in multi-talker scenarios. In this work, we present a pioneering effort to investigate the capability of LLMs in transcribing speech in multi-talker environments, following versatile instructions related to multi-talker automatic speech recognition (ASR), target talker ASR, and ASR based on specific talker attributes such as sex, occurrence order, language, and keyword spoken. Our approach utilizes WavLM and Whisper encoder to extract multi-faceted speech representations that are sensitive to speaker characteristics and semantic context. These representations are then fed into an LLM fine-tuned using LoRA, enabling the capabilities for speech comprehension and transcription. Comprehensive experiments reveal the promising performance of our proposed system, MT-LLM, in cocktail party scenarios, highlighting the potential of LLM to handle speech-related tasks based on user instructions in such complex settings.

arxiv情報

著者 Lingwei Meng,Shujie Hu,Jiawen Kang,Zhaoqing Li,Yuejiao Wang,Wenxuan Wu,Xixin Wu,Xunying Liu,Helen Meng
発行日 2024-09-13 07:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク