「cs.SD」カテゴリーアーカイブ

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

投稿日: 2025年5月9日作成者: jarxiv

要約サウンドソースのローカリゼーション（SSL）、サウンドソース分離（SSS） … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech

投稿日: 2025年5月9日作成者: jarxiv

要約目的：音声明瞭度は、ダイサルリアの評価と管理における重要な結果ですが、ほと … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization

投稿日: 2025年5月9日作成者: jarxiv

要約大規模なビジョン言語モデルは、多様なタスク全体で強力なマルチモーダルアライ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Accelerating Audio Research with Robotic Dummy Heads

投稿日: 2025年5月8日作成者: jarxiv

要約この作品は、従来のオーディオロジカルマネキンの音響リアリズムとロボットの可 … 続きを読む →

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration

投稿日: 2025年5月8日作成者: jarxiv

要約トレーニングデータクリーニングは、生成モデルベースの音声修復（SR）の新し … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform

投稿日: 2025年5月8日作成者: jarxiv

要約自動音楽転写（AMT）は、音楽のオーディオ録音を分析し、再生されているメモ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

投稿日: 2025年5月8日作成者: jarxiv

要約オーディオSDSを紹介します。オーディオSDは、テキストコンディショニング … 続きを読む →

カテゴリー: 68T07, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, H.5.1 | コメントを受け付けていません

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

投稿日: 2025年5月8日作成者: jarxiv

要約 Audio-Visuual Speech Speech Septureat … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

投稿日: 2025年5月8日作成者: jarxiv

要約この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | コメントを受け付けていません

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

投稿日: 2025年5月8日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、テキスト、ビジョン、オーディオ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

An Efficient GPU-based Implementation for Noise Robust Sound Source Localization

Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech

Hearing and Seeing Through CLIP: A Framework for Self-Supervised Sound Source Localization

Accelerating Audio Research with Robotic Dummy Heads

Miipher-2: A Universal Speech Restoration Model for Million-Hour Scale Data Restoration

Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー