Multimodal Modeling For Spoken Language Identification

要約

音声言語識別とは、特定の発話内の音声言語を自動的に予測するタスクを指します。
従来、これは音声ベースの言語識別タスクとしてモデル化されていました。
従来の技術は単一のモダリティに制限されていました。
ただし、ビデオ データの場合は、このタスクに役立つ可能性のある他のメタデータが豊富にあります。
この研究では、言語識別を強化するためのさまざまなメタデータ ソースの使用を詳しく調べる、マルチモーダル音声言語識別方法である MuSeLI を提案します。
私たちの調査では、ビデオのタイトル、説明、地理的位置などのメタデータが、マルチメディア録画の音声言語を識別するための重要な情報を提供することが明らかになりました。
私たちは YouTube 動画の 2 つの多様な公開データセットを使用して実験を実施し、言語識別タスクに関する最先端の結果を取得しました。
さらに、言語認識に対する各モダリティの明確な貢献を説明するアブレーション研究も実施します。

要約(オリジナル)

Spoken language identification refers to the task of automatically predicting the spoken language in a given utterance. Conventionally, it is modeled as a speech-based language identification task. Prior techniques have been constrained to a single modality; however in the case of video data there is a wealth of other metadata that may be beneficial for this task. In this work, we propose MuSeLI, a Multimodal Spoken Language Identification method, which delves into the use of various metadata sources to enhance language identification. Our study reveals that metadata such as video title, description and geographic location provide substantial information to identify the spoken language of the multimedia recording. We conduct experiments using two diverse public datasets of YouTube videos, and obtain state-of-the-art results on the language identification task. We additionally conduct an ablation study that describes the distinct contribution of each modality for language recognition.

arxiv情報

著者 Shikhar Bharadwaj,Min Ma,Shikhar Vashishth,Ankur Bapna,Sriram Ganapathy,Vera Axelrod,Siddharth Dalmia,Wei Han,Yu Zhang,Daan van Esch,Sandy Ritchie,Partha Talukdar,Jason Riesa
発行日 2023-09-19 12:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク