要約
近年、イベント音源定位はさまざまな分野で広く応用されています。
最近の作品は通常、対照的な学習フレームワークに依存しており、印象的なパフォーマンスを示しています。
ただし、すべての作業は大規模で比較的単純なデータセットに基づいています。
また、群衆管理や緊急対応サービスなど、多くのアプリケーションにおいて、混沌としたイベントにおける人間の行動 (人々の行動と相互作用)、声、音を理解して分析することも重要です。
この論文では、既存のモデルをより複雑なデータセットに適用し、モデルに対するパラメーターの影響を調査し、半教師あり改善手法 SemiPL を提案します。
データ量の増加とラベル品質の影響により、自己教師あり学習は止められない傾向になるでしょう。
実験は、パラメータ調整が既存のモデルにプラスの影響を与えることを示しています。
特に、SSPL は、提供された結果と比較して、Chaotic World で 12.2% cIoU と 0.56% AUC の改善を達成しました。
コードはhttps://github.com/ly245422/SSPLから入手できます。
要約(オリジナル)
In recent years, Event Sound Source Localization has been widely applied in various fields. Recent works typically relying on the contrastive learning framework show impressive performance. However, all work is based on large relatively simple datasets. It’s also crucial to understand and analyze human behaviors (actions and interactions of people), voices, and sounds in chaotic events in many applications, e.g., crowd management, and emergency response services. In this paper, we apply the existing model to a more complex dataset, explore the influence of parameters on the model, and propose a semi-supervised improvement method SemiPL. With the increase in data quantity and the influence of label quality, self-supervised learning will be an unstoppable trend. The experiment shows that the parameter adjustment will positively affect the existing model. In particular, SSPL achieved an improvement of 12.2% cIoU and 0.56% AUC in Chaotic World compared to the results provided. The code is available at: https://github.com/ly245422/SSPL
arxiv情報
著者 | Yue Li,Baiqiao Yin,Jinfu Liu,Jiajun Wen,Jiaying Lin,Mengyuan Liu |
発行日 | 2024-04-30 15:13:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google