Automated Audio Captioning and Language-Based Audio Retrieval

要約

このプロジェクトには、(1) 自動音声キャプションと (2) 言語ベースの音声検索の 2 つのサブタスクがある DCASE 2022 コンペティション (タスク 6) への参加が含まれていました。
最初のサブタスクにはオーディオ サンプルのテキスト説明の生成が含まれていましたが、2 番目のサブタスクの目標は、特定の説明に一致する固定データセット内でオーディオ サンプルを見つけることでした。
両方のサブタスクで、Clotho データセットが使用されました。
モデルは、音声キャプションの BLEU1、BLEU2、BLEU3、ROUGEL、METEOR、CIDEr、SPICE、および SPIDEr スコアと、音声検索の R1、R5、R10、および mARP10 スコアで評価されました。
私たちは、これらのタスクのベースライン モデルを変更するいくつかの実験を実施しました。
自動音声キャプションの最終アーキテクチャはベースライン パフォーマンスに近いものになっていますが、言語ベースの音声検索モデルは同等のものを上回っています。

要約(オリジナル)

This project involved participation in the DCASE 2022 Competition (Task 6) which had two subtasks: (1) Automated Audio Captioning and (2) Language-Based Audio Retrieval. The first subtask involved the generation of a textual description for audio samples, while the goal of the second was to find audio samples within a fixed dataset that match a given description. For both subtasks, the Clotho dataset was used. The models were evaluated on BLEU1, BLEU2, BLEU3, ROUGEL, METEOR, CIDEr, SPICE, and SPIDEr scores for audio captioning and R1, R5, R10 and mARP10 scores for audio retrieval. We have conducted a handful of experiments that modify the baseline models for these tasks. Our final architecture for Automated Audio Captioning is close to the baseline performance, while our model for Language-Based Audio Retrieval has surpassed its counterpart.

arxiv情報

著者 Clive Gomes,Hyejin Park,Patrick Kollman,Yi Song,Iffanice Houndayi,Ankit Shah
発行日 2023-05-15 13:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SD, eess.AS パーマリンク