Establishing degrees of closeness between audio recordings along different dimensions using large-scale cross-lingual models

要約

リソースが少ない言語研究という非常に制約されたコンテキストにおいて、事前学習済みモデルから音声のベクトル表現を調査し、音声信号に関する抽象化のレベルを決定します。
私たちは、表現に存在する情報の種類を明らかにするために、注意深く厳選されたメタデータを含む音声録音に対する ABX テストを使用する、新しい教師なし手法を提案します。
ABX テストは、多言語音声モデルによって計算された表現が特定の特性をエンコードしているかどうかを判断します。
3 つの実験が考案されました。1 つは室内音響の側面、1 つは言語ジャンル、そして 1 つは音声の側面です。
結果は、異なる言語的/言語外的特徴を持つ録音から抽出された表現が同じ線に沿って異なることを確認します。
1 つのベクトルにより多くのオーディオ信号を埋め込むと、言語外の特徴がよりよく識別されますが、断片的な情報はより短いスニペットのほうがよりよく識別されます。
この方法は完全に教師なしで行われるため、文書化が不十分な言語の比較研究に新たな研究の道を開く可能性があります。

要約(オリジナル)

In the highly constrained context of low-resource language studies, we explore vector representations of speech from a pretrained model to determine their level of abstraction with regard to the audio signal. We propose a new unsupervised method using ABX tests on audio recordings with carefully curated metadata to shed light on the type of information present in the representations. ABX tests determine whether the representations computed by a multilingual speech model encode a given characteristic. Three experiments are devised: one on room acoustics aspects, one on linguistic genre, and one on phonetic aspects. The results confirm that the representations extracted from recordings with different linguistic/extra-linguistic characteristics differ along the same lines. Embedding more audio signal in one vector better discriminates extra-linguistic characteristics, whereas shorter snippets are better to distinguish segmental information. The method is fully unsupervised, potentially opening new research avenues for comparative work on under-documented languages.

arxiv情報

著者 Maxime Fily,Guillaume Wisniewski,Severine Guillaume,Gilles Adda,Alexis Michaud
発行日 2024-02-08 11:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク