StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Self-supervised Learning Models

要約

我々は、音声に現れる話し方の自然言語記述を生成する手法、StyleCap を提案します。
従来のパラ言語/非言語情報認識技術のほとんどは、カテゴリ分類や事前定義されたラベルの強度推定に焦点を当てていましたが、解釈可能な方法で認識結果の推論を提供することはできませんでした。
音声から話し方スタイルのプロンプトを生成するエンドツーエンドの方法、つまり話し方スタイルの自動キャプションへの最初のステップとして、StyleCap は音声と自然言語記述のペア データを使用して、音声に入力されるプレフィックス ベクトルを予測するニューラル ネットワークをトレーニングします。
音声表現ベクトルからのラージ言語モデル (LLM) ベースのテキスト デコーダ。
この新しいタスクに適した適切なテキスト デコーダと音声特徴表現を探索します。
実験結果は、テキスト デコーダ、音声自己教師あり学習 (SSL) 機能、文言い換え拡張機能に豊富な LLM を活用する StyleCap が、生成される話し方スタイルのキャプションの精度と多様性を向上させることを示しています。
StyleCap によって生成された話し方スタイルのキャプションのサンプルは公開されています。

要約(オリジナル)

We propose StyleCap, a method to generate natural language descriptions of speaking styles appearing in speech. Although most of conventional techniques for para-/non-linguistic information recognition focus on the category classification or the intensity estimation of pre-defined labels, they cannot provide the reasoning of the recognition result in an interpretable manner. As a first step towards an end-to-end method for generating speaking-style prompts from speech, i.e., automatic speaking-style captioning, StyleCap uses paired data of speech and natural language descriptions to train neural networks that predict prefix vectors fed into a large language model (LLM)-based text decoder from a speech representation vector. We explore an appropriate text decoder and speech feature representation suitable for this new task. The experimental results demonstrate that our StyleCap leveraging richer LLMs for the text decoder, speech self-supervised learning (SSL) features, and sentence rephrasing augmentation improves the accuracy and diversity of generated speaking-style captions. Samples of speaking-style captions generated by our StyleCap are publicly available.

arxiv情報

著者 Kazuki Yamauchi,Yusuke Ijima,Yuki Saito
発行日 2023-11-28 04:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク