要約
この論文では、高齢者の幸福を促進することを目的としたスマート ホーム アプリケーションのための音声イベント検出研究をサポートする住宅用音声データセットを紹介します。
このデータセットは、55 ~ 80 歳の参加者 8 人の自宅に音声録音システムを 7 日間導入することによって構築されます。
音響特性は、詳細なフロアプランと建築材料情報を通じて文書化され、AI モデル展開のための録音環境の複製を可能にします。
新しい自動音声削除パイプラインが開発され、事前トレーニングされたオーディオ ニューラル ネットワークを使用して、他の音声イベントを含むセグメントを保持しながら、話し声を含むセグメントを検出して削除します。
結果として得られるデータセットは、住宅空間内のサウンドスケープと日常生活の活動を正確にキャプチャした、プライバシーに準拠した音声録音で構成されています。
この論文では、データセットの作成方法、カスケード モデル アーキテクチャを利用した音声除去パイプライン、および音声除去プロセスを検証するための音声ラベル分布の分析について詳しく説明します。
このデータセットにより、特に家庭用アプリケーションに合わせたサウンド イベント検出モデルの開発とベンチマークが可能になります。
要約(オリジナル)
This paper presents a residential audio dataset to support sound event detection research for smart home applications aimed at promoting wellbeing for older adults. The dataset is constructed by deploying audio recording systems in the homes of 8 participants aged 55-80 years for a 7-day period. Acoustic characteristics are documented through detailed floor plans and construction material information to enable replication of the recording environments for AI model deployment. A novel automated speech removal pipeline is developed, using pre-trained audio neural networks to detect and remove segments containing spoken voice, while preserving segments containing other sound events. The resulting dataset consists of privacy-compliant audio recordings that accurately capture the soundscapes and activities of daily living within residential spaces. The paper details the dataset creation methodology, the speech removal pipeline utilizing cascaded model architectures, and an analysis of the vocal label distribution to validate the speech removal process. This dataset enables the development and benchmarking of sound event detection models tailored specifically for in-home applications.
arxiv情報
著者 | Gabriel Bibbó,Thomas Deacon,Arshdeep Singh,Mark D. Plumbley |
発行日 | 2024-09-17 15:10:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google