要約
大規模な音声認識データ セットは通常、マルチメディア ライブラリから取得した音響録音で構成されます。
結果として、オーディオ以外のモダリティを利用して、関連するタスク用に設計されたモデルの出力を改善できることがよくあります。
ただし、多くの場合、そのようなコレクションのすべてのサンプルですべてのコンテンツを利用できるわけではありません。たとえば、元の素材がある時点でソース プラットフォームから削除されている可能性があるため、聴覚以外の機能を取得できなくなります。
この方法を注意ベースの深層学習システムに適用することにより、マルチエンコーダーフレームワークを使用してこの問題に対処できることを示します。これは、現在、音声認識の分野で最先端の技術の一部です。
より具体的には、提案されたモデル拡張を利用して、部分的に利用可能な視覚情報を、通常はトレーニングと推論中に聴覚機能のみを使用するネットワークの運用手順に組み込むことができることを示します。
実験的に、考慮されたアプローチが、オーディオのタグ付けとサウンドイベントの検出に関連する多くの評価シナリオで予測の改善につながることを確認します。
さらに、提示された手法のいくつかのプロパティと制限を精査します。
要約(オリジナル)
Large-scale sound recognition data sets typically consist of acoustic recordings obtained from multimedia libraries. As a consequence, modalities other than audio can often be exploited to improve the outputs of models designed for associated tasks. Frequently, however, not all contents are available for all samples of such a collection: For example, the original material may have been removed from the source platform at some point, and therefore, non-auditory features can no longer be acquired. We demonstrate that a multi-encoder framework can be employed to deal with this issue by applying this method to attention-based deep learning systems, which are currently part of the state of the art in the domain of sound recognition. More specifically, we show that the proposed model extension can successfully be utilized to incorporate partially available visual information into the operational procedures of such networks, which normally only use auditory features during training and inference. Experimentally, we verify that the considered approach leads to improved predictions in a number of evaluation scenarios pertaining to audio tagging and sound event detection. Additionally, we scrutinize some properties and limitations of the presented technique.
arxiv情報
著者 | Wim Boes,Hugo Van hamme |
発行日 | 2022-09-26 16:32:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google