Speaker Fuzzy Fingerprints: Benchmarking Text-Based Identification in Multiparty Dialogues

要約

音声録音を使用したスピーカーの識別は、一意のアコースティック機能を活用しますが、このアプローチはテキストデータのみが利用可能である場合に失敗します。
テキストのみからスピーカーを識別する問題に取り組むことを試みたアプローチはほとんどなく、既存のアプローチは主に従来の方法に依存しています。
この作業では、テキストベースのスピーカーの識別を改善するために、大規模な事前訓練モデルからのファジーフィンガープリントの使用を調査します。
スピーカー固有のトークンとコンテキスト認識モデリングを統合し、会話のコンテキストが精度を大幅に高め、友人データセットで70.6%、ビッグバン理論データセットで67.7%に達することを示しています。
さらに、ファジーの指紋は、隠されたユニットが少ない完全な微調整パフォーマンスを近似し、解釈可能性を向上させることができることを示しています。
最後に、あいまいな発話を分析し、スピーカーと存在するラインを検出するメカニズムを提案します。
私たちの調査結果は、重要な課題を強調し、テキストベースのスピーカー識別の将来の改善に関する洞察を提供します。

要約(オリジナル)

Speaker identification using voice recordings leverages unique acoustic features, but this approach fails when only textual data is available. Few approaches have attempted to tackle the problem of identifying speakers solely from text, and the existing ones have primarily relied on traditional methods. In this work, we explore the use of fuzzy fingerprints from large pre-trained models to improve text-based speaker identification. We integrate speaker-specific tokens and context-aware modeling, demonstrating that conversational context significantly boosts accuracy, reaching 70.6% on the Friends dataset and 67.7% on the Big Bang Theory dataset. Additionally, we show that fuzzy fingerprints can approximate full fine-tuning performance with fewer hidden units, offering improved interpretability. Finally, we analyze ambiguous utterances and propose a mechanism to detect speaker-agnostic lines. Our findings highlight key challenges and provide insights for future improvements in text-based speaker identification.

arxiv情報

著者 Rui Ribeiro,Luísa Coheur,Joao P. Carvalho
発行日 2025-04-21 08:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG, cs.NE パーマリンク