要約
音響質問応答 (AQA) タスクの目標は、音響シーンの内容に関する自由形式のテキストの質問に答えることです。
これは、Visual Question Answering (VQA) タスクからインスピレーションを得たものです。
このペーパーでは、以前に紹介した CLEAR データセットに基づいて、音響入力の特定の課題に重点を置いた AQA の新しいベンチマーク、つまり CLEAR2 を提案します。
これには、可変長シーンの処理や、トレーニング セットとテスト セットで異なる基本的なサウンドで構築されたシーンが含まれます。
また、音響入力の特定の特性を活用するニューラル アーキテクチャである NAAQA についても紹介します。
時間と周波数の 1D 畳み込みを使用して音響コンテンツの 2D 分光時間表現を処理すると、有望な結果が得られ、モデルの複雑さを軽減できます。
時間座標マップは時間的位置特定機能を強化し、ネットワークのパフォーマンスを最大 17 パーセント向上させることを示します。
一方、周波数座標マップはこのタスクにほとんど影響を与えません。
NAAQA は、以前に検討された VQA モデルよりも約 4 倍少ないパラメーターで、AQA タスクで 79.5% の精度を達成します。
DAQA から再構築された独立したデータセットに対する NAAQA のパフォーマンスを評価します。
また、CLEAR2 と DAQA の両方でモデルに MALiMo モジュールを追加するテストも行います。
さまざまな質問タイプの結果の詳細な分析を提供します。
この新しく出現した機械学習タスクの研究を促進するために、CLEAR2 と NAAQA を生成するコードをリリースします。
要約(オリジナル)
The goal of the Acoustic Question Answering (AQA) task is to answer a free-form text question about the content of an acoustic scene. It was inspired by the Visual Question Answering (VQA) task. In this paper, based on the previously introduced CLEAR dataset, we propose a new benchmark for AQA, namely CLEAR2, that emphasizes the specific challenges of acoustic inputs. These include handling of variable duration scenes, and scenes built with elementary sounds that differ between training and test set. We also introduce NAAQA, a neural architecture that leverages specific properties of acoustic inputs. The use of 1D convolutions in time and frequency to process 2D spectro-temporal representations of acoustic content shows promising results and enables reductions in model complexity. We show that time coordinate maps augment temporal localization capabilities which enhance performance of the network by ~17 percentage points. On the other hand, frequency coordinate maps have little influence on this task. NAAQA achieves 79.5% of accuracy on the AQA task with ~4 times fewer parameters than the previously explored VQA model. We evaluate the perfomance of NAAQA on an independent data set reconstructed from DAQA. We also test the addition of a MALiMo module in our model on both CLEAR2 and DAQA. We provide a detailed analysis of the results for the different question types. We release the code to produce CLEAR2 as well as NAAQA to foster research in this newly emerging machine learning task.
arxiv情報
著者 | Jerome Abdelnour,Jean Rouat,Giampiero Salvi |
発行日 | 2024-01-12 14:58:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google