要約
視聴覚表現学習は、聴覚情報と視覚情報の相関関係を利用して、人間のような知覚を実現するシステムの開発を目的としています。
ただし、現在のモデルは限られたタスクのセットに焦点を当てていることが多く、学習された表現の一般化能力は不明です。
この目的を達成するために、音声および音声処理における 5 つの視聴覚タスクをカバーする 7 つのデータセット上で単峰性の音声/映像および二峰性の融合表現の汎用評価を可能にする AV-SUPERB ベンチマークを提案します。
我々は最近の 5 つの自己教師ありモデルを評価し、これらのモデルのどれもすべてのタスクに一般化できないことを示し、普遍的なモデルのパフォーマンスを向上させるための将来の研究の必要性を強調しました。
さらに、中間タスクの微調整によって表現が改善される可能性があり、AudioSet によるオーディオ イベント分類が強力な中間タスクとして機能することを示します。
視聴覚学習におけるさらなる研究を促進するために、評価コードとモデル提出プラットフォームを備えたベンチマークをリリースします。
要約(オリジナル)
Audio-visual representation learning aims to develop systems with human-like perception by utilizing correlation between auditory and visual information. However, current models often focus on a limited set of tasks, and generalization abilities of learned representations are unclear. To this end, we propose the AV-SUPERB benchmark that enables general-purpose evaluation of unimodal audio/visual and bimodal fusion representations on 7 datasets covering 5 audio-visual tasks in speech and audio processing. We evaluate 5 recent self-supervised models and show that none of these models generalize to all tasks, emphasizing the need for future study on improving universal model performance. In addition, we show that representations may be improved with intermediate-task fine-tuning and audio event classification with AudioSet serves as a strong intermediate task. We release our benchmark with evaluation code and a model submission platform to encourage further research in audio-visual learning.
arxiv情報
著者 | Yuan Tseng,Layne Berry,Yi-Ting Chen,I-Hsiang Chiu,Hsuan-Hao Lin,Max Liu,Puyuan Peng,Yi-Jen Shih,Hung-Yu Wang,Haibin Wu,Po-Yao Huang,Chun-Mao Lai,Shang-Wen Li,David Harwath,Yu Tsao,Shinji Watanabe,Abdelrahman Mohamed,Chi-Luen Feng,Hung-yi Lee |
発行日 | 2023-09-19 17:35:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google