Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content

要約

トランジション関連性 場所は、対話者が現在の話者の話を遮ることなく発言できる発話の終わり、つまり順番が終了する場所として定義されます。
ターン終了性の分析は、自発的な会話におけるターンテイクのダイナミクスを研究するのに役立ちます。
このペーパーでは、マルチ話者設定における音声発話のターミナルまたは非ターミナルとしての自動分類を示します。
私たちは、話者が変わるたびに、ターン終了情報が注釈付けされたテレビとラジオの抜粋のフランス語コーパスで、音声、テキスト、および両方のアプローチの融合を比較しました。
私たちのモデルは、事前にトレーニングされた自己教師あり表現に基づいています。
さまざまな融合戦略とさまざまなコンテキスト サイズの結果を報告します。
この研究では、ランダムな初期化を使用した複数のトレーニング実行の結果の違いを分析することで、パフォーマンスの変動の問題にも疑問を投げかけています。
測定された精度により、これらのモデルをターンテイキングの大規模分析に使用できるようになります。

要約(オリジナル)

Transition Relevance Places are defined as the end of an utterance where the interlocutor may take the floor without interrupting the current speaker –i.e., a place where the turn is terminal. Analyzing turn terminality is useful to study the dynamic of turn-taking in spontaneous conversations. This paper presents an automatic classification of spoken utterances as Terminal or Non-Terminal in multi-speaker settings. We compared audio, text, and fusions of both approaches on a French corpus of TV and Radio extracts annotated with turn-terminality information at each speaker change. Our models are based on pre-trained self-supervised representations. We report results for different fusion strategies and varying context sizes. This study also questions the problem of performance variability by analyzing the differences in results for multiple training runs with random initialization. The measured accuracy would allow the use of these models for large-scale analysis of turn-taking.

arxiv情報

著者 Rémi Uro,Marie Tahon,David Doukhan,Antoine Laurent,Albert Rilliard
発行日 2024-06-14 14:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS パーマリンク