要約
従来の音声分類は事前定義されたクラスに依存しており、自由形式のテキストから学習する機能が不足していました。
最近の方法では、自然言語で音声を記述する生の音声とテキストのペアから、共同の音声とテキストの埋め込みを学習できるようになりました。
最近の進歩にもかかわらず、同様の状況の屋外イベントで花火と銃声を区別するなど、別のシナリオで音のイベントや音源を認識するためのモデルをトレーニングするための体系的な方法の研究はほとんどありません。
この研究では、オーディオ領域における因果推論と反事実分析を紹介します。
私たちは反事実のインスタンスを使用し、さまざまな側面にわたってモデルにそれらを組み込みます。
私たちのモデルは、人間が注釈を付けた参考文献からの音響特性と音源情報を考慮します。
モデルの有効性を検証するために、複数の音声キャプション データセットを利用して事前トレーニングを実施しました。
次に、いくつかの一般的な下流タスクを使用して評価し、オーディオ領域で反事実情報を活用する最初の作品の 1 つとして、提案された方法のメリットを実証します。
具体的には、オープンエンド言語ベースの音声検索タスクにおけるトップ 1 の精度が 43% 以上向上しました。
要約(オリジナル)
Conventional audio classification relied on predefined classes, lacking the ability to learn from free-form text. Recent methods unlock learning joint audio-text embeddings from raw audio-text pairs describing audio in natural language. Despite recent advancements, there is little exploration of systematic methods to train models for recognizing sound events and sources in alternative scenarios, such as distinguishing fireworks from gunshots at outdoor events in similar situations. This study introduces causal reasoning and counterfactual analysis in the audio domain. We use counterfactual instances and include them in our model across different aspects. Our model considers acoustic characteristics and sound source information from human-annotated reference texts. To validate the effectiveness of our model, we conducted pre-training utilizing multiple audio captioning datasets. We then evaluate with several common downstream tasks, demonstrating the merits of the proposed method as one of the first works leveraging counterfactual information in audio domain. Specifically, the top-1 accuracy in open-ended language-based audio retrieval task increased by more than 43%.
arxiv情報
著者 | Ali Vosoughi,Luca Bondi,Ho-Hsiang Wu,Chenliang Xu |
発行日 | 2024-01-10 05:15:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google