要約
サウンドスケープは、人がその場所で知覚する音響環境によって定義されます。
この研究では、地球上のサウンドスケープをマッピングするためのフレームワークを提案します。
サウンドスケープにはさまざまな空間スケールにわたる音の分布が含まれるため、マルチスケールの衛星画像で場所を表現し、この画像、音声、テキストの結合表現を学習します。
ある場所のサウンドスケープに固有の不確実性を捉えるために、私たちは表現空間を確率的になるように設計します。
また、ユビキタスなメタデータ (地理位置情報、時間、データ ソースなど) を融合して、サウンドスケープの空間的および時間的動的表現の学習を可能にします。
オーディオとテキストの両方を時間制御で統合した大規模なサウンドスケープ マップを作成することで、フレームワークの有用性を実証します。
このタスクに関する将来の研究を促進するために、低解像度および高解像度の衛星画像と組み合わせた 30 万ドルを超えるジオタグ付き音声サンプルを含む大規模データセット GeoSound も導入します。
私たちは、GeoSound と既存の SoundingEarth データセットの両方で、私たちの方法が既存の最先端技術よりも優れていることを実証します。
データセットとコードは https://github.com/mvrl/PSM で入手できます。
要約(オリジナル)
A soundscape is defined by the acoustic environment a person perceives at a location. In this work, we propose a framework for mapping soundscapes across the Earth. Since soundscapes involve sound distributions that span varying spatial scales, we represent locations with multi-scale satellite imagery and learn a joint representation among this imagery, audio, and text. To capture the inherent uncertainty in the soundscape of a location, we design the representation space to be probabilistic. We also fuse ubiquitous metadata (including geolocation, time, and data source) to enable learning of spatially and temporally dynamic representations of soundscapes. We demonstrate the utility of our framework by creating large-scale soundscape maps integrating both audio and text with temporal control. To facilitate future research on this task, we also introduce a large-scale dataset, GeoSound, containing over $300k$ geotagged audio samples paired with both low- and high-resolution satellite imagery. We demonstrate that our method outperforms the existing state-of-the-art on both GeoSound and the existing SoundingEarth dataset. Our dataset and code is available at https://github.com/mvrl/PSM.
arxiv情報
著者 | Subash Khanal,Eric Xing,Srikumar Sastry,Aayush Dhakal,Zhexiao Xiong,Adeel Ahmad,Nathan Jacobs |
発行日 | 2024-08-13 17:37:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google