Temporally Aligning Long Audio Interviews with Questions: A Case Study in Multimodal Data Integration

要約

音声とテキストの位置合わせの問題については、トレーニング中に完全な監視を使用してかなりの量の研究が行われてきました。
ただし、これは通常、クエリ対象のテキストが音声ファイル内でそのまま表示されない、長い音声録音の場合には当てはまりません。
この研究は、インドのビハール州の農村部に住む若い母親から長時間の音声健康調査を収集する CARE India と呼ばれる非政府組織とのコラボレーションです。
これらの調査のガイドとして使用されるアンケートから抽出された質問を考慮して、長い音声録音内でその質問が行われている場所を特定することを目的としています。
これは、関心のある質問 (および回答) を見つけるために、長くてノイズの多い音声録音を苦労して調べる必要があるアフリカおよびアジアの組織にとって、非常に価値があります。
私たちが提案するフレームワークである INDENT は、クロスアテンション ベースのモデルと、文の時間的順序に関する事前情報を使用して、基礎となる音声テキストのセマンティクスを捕捉する音声埋め込みを学習します。
これらの学習された埋め込みは、推論時にテキスト クエリに基づいて対応する音声セグメントを取得するために使用されます。
私たちは、テキストベースのヒューリスティックを使用して得られたモデルと比較して、モデルの有意な有効性 (R-avg の約 3% の改善) を経験的に実証しています。
また、インド言語用の最先端の ASR モデルを使用して生成されたノイズの多い ASR を音声の代わりに使用すると、どのようにしてより良い結果が得られるかも示します。
ヒンディー語データのみでトレーニングされた INDENT は、(意味的に) 共有テキスト空間でサポートされているすべての言語に対応できます。
これを 11 のインド言語について実験的に説明します。

要約(オリジナル)

The problem of audio-to-text alignment has seen significant amount of research using complete supervision during training. However, this is typically not in the context of long audio recordings wherein the text being queried does not appear verbatim within the audio file. This work is a collaboration with a non-governmental organization called CARE India that collects long audio health surveys from young mothers residing in rural parts of Bihar, India. Given a question drawn from a questionnaire that is used to guide these surveys, we aim to locate where the question is asked within a long audio recording. This is of great value to African and Asian organizations that would otherwise have to painstakingly go through long and noisy audio recordings to locate questions (and answers) of interest. Our proposed framework, INDENT, uses a cross-attention-based model and prior information on the temporal ordering of sentences to learn speech embeddings that capture the semantics of the underlying spoken text. These learnt embeddings are used to retrieve the corresponding audio segment based on text queries at inference time. We empirically demonstrate the significant effectiveness (improvement in R-avg of about 3%) of our model over those obtained using text-based heuristics. We also show how noisy ASR, generated using state-of-the-art ASR models for Indian languages, yields better results when used in place of speech. INDENT, trained only on Hindi data is able to cater to all languages supported by the (semantically) shared text space. We illustrate this empirically on 11 Indic languages.

arxiv情報

著者 Piyush Singh Pasi,Karthikeya Battepati,Preethi Jyothi,Ganesh Ramakrishnan,Tanmay Mahapatra,Manoj Singh
発行日 2023-10-10 15:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク