「cs.SD」カテゴリーアーカイブ

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

投稿日: 2025年2月12日作成者: jarxiv

要約 Audio-Visuual Speech Speech Septureat … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Calibration of Multiple Asynchronous Microphone Arrays using Hybrid TDOA

投稿日: 2025年2月11日作成者: jarxiv

要約複数の非同期マイクアレイで作られた音響センシングシステムの正確なキャリブレ … 続きを読む →

カテゴリー: cs.RO, cs.SD | コメントを受け付けていません

Improved Extrinsic Calibration of Acoustic Cameras via Batch Optimization

投稿日: 2025年2月11日作成者: jarxiv

要約アコースティックカメラでは、実際には多くのアプリケーションが見つかりました … 続きを読む →

カテゴリー: cs.RO, cs.SD | コメントを受け付けていません

Evaluation of Deep Audio Representations for Hearables

投稿日: 2025年2月11日作成者: jarxiv

要約効果的に聞こえるデバイスには、ユーザーの周りの音響環境を理解する必要があり … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD | コメントを受け付けていません

Exploring Audio Editing Features as User-Centric Privacy Defenses Against Large Language Model(LLM) Based Emotion Inference Attacks

投稿日: 2025年2月11日作成者: jarxiv

要約仮想アシスタント、ビデオ会議プラットフォーム、ウェアラブルデバイスなどの音 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Learning Musical Representations for Music Performance Question Answering

投稿日: 2025年2月11日作成者: jarxiv

要約音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。まばらなオ … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning

投稿日: 2025年2月11日作成者: jarxiv

要約このペーパーでは、生の波形に直接適用されるリアルタイムの因果オーディオ除去 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound

投稿日: 2025年2月10日作成者: jarxiv

要約オーディオ美学の定量化は、主にその主観的な性質のために、人間の認識と文化的 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance

投稿日: 2025年2月10日作成者: jarxiv

要約低リソース言語の自動音声認識（ASR）パフォーマンスは、十分なラベル付きデ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Latent Swap Joint Diffusion for Long-Form Audio Generation

投稿日: 2025年2月10日作成者: jarxiv

要約グローバルビューの拡散または反復生成を使用した長期のオーディオ生成に関する … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

Calibration of Multiple Asynchronous Microphone Arrays using Hybrid TDOA

Improved Extrinsic Calibration of Acoustic Cameras via Batch Optimization

Evaluation of Deep Audio Representations for Hearables

Exploring Audio Editing Features as User-Centric Privacy Defenses Against Large Language Model(LLM) Based Emotion Inference Attacks

Learning Musical Representations for Music Performance Question Answering

CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning

Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound

Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance

Latent Swap Joint Diffusion for Long-Form Audio Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー