Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction

要約

人間は、一般的にカクテル パーティーのシナリオと呼ばれる、複雑な音響環境の中で、目的の音源に選択的に焦点を合わせる並外れた能力を持っています。
この驚くべき聴覚注意能力を機械で再現する試みとして、ターゲット話者抽出 (TSE) モデルが開発されました。
これらのモデルは、ターゲット話者の事前登録されたキューを活用して、関心のある音源を抽出します。
ただし、これらのモデルの有効性は、信頼性が低いか、事前登録されたキューがないため、現実のシナリオでは妨げられます。
この制限に対処するために、この研究では、既存の TSE モデルの実現可能性、制御性、およびパフォーマンスを強化するための自然言語記述の統合を調査します。
具体的には、LLM-TSE という名前のモデルを提案します。このモデルでは、ユーザーの入力されたテキスト入力から有用な意味論的な手がかりを抽出する大規模言語モデル (LLM) が使用されます。
これらのキューは、独立した抽出キュー、TSE プロセスを制御するタスク セレクターとして機能したり、事前に登録されたキューを補完したりすることができます。
私たちの実験結果は、テキストベースのキューのみが提示された場合の競争力のあるパフォーマンス、入力テキストをタスクセレクターとして使用する有効性、およびテキストベースのキューと事前登録されたキューを組み合わせた場合の新しい最先端技術を実証しています。
私たちの知る限り、これはターゲット話者の抽出をガイドするために LLM をうまく組み込んだ最初の研究であり、カクテル パーティーの問題研究の基礎となる可能性があります。

要約(オリジナル)

Humans possess an extraordinary ability to selectively focus on the sound source of interest amidst complex acoustic environments, commonly referred to as cocktail party scenarios. In an attempt to replicate this remarkable auditory attention capability in machines, target speaker extraction (TSE) models have been developed. These models leverage the pre-registered cues of the target speaker to extract the sound source of interest. However, the effectiveness of these models is hindered in real-world scenarios due to the unreliable or even absence of pre-registered cues. To address this limitation, this study investigates the integration of natural language description to enhance the feasibility, controllability, and performance of existing TSE models. Specifically, we propose a model named LLM-TSE, wherein a large language model (LLM) to extract useful semantic cues from the user’s typed text input. These cues can serve as independent extraction cues, task selectors to control the TSE process, or complement the pre-registered cues. Our experimental results demonstrate competitive performance when only text-based cues are presented, the effectiveness of using input text as a task selector, and a new state-of-the-art when combining text-based cues with pre-registered cues. To our knowledge, this is the first study to successfully incorporate LLMs to guide target speaker extraction, which can be a cornerstone for cocktail party problem research.

arxiv情報

著者 Xiang Hao,Jibin Wu,Jianwei Yu,Chenglin Xu,Kay Chen Tan
発行日 2023-10-12 01:40:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク