-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.SD」カテゴリーアーカイブ
Harder or Different? Understanding Generalization of Audio Deepfake Detection
要約 最近の研究では、音声ディープフェイク検出における重要な問題が明らかになりま … 続きを読む
MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers
要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む
Reacting like Humans: Incorporating Intrinsic Human Behaviors into NAO through Sound-Based Reactions to Fearful and Shocking Events for Enhanced Sociability
要約 人間に似た反応を組み込むことで、人間の間でのロボットの受容性と社会性を大幅 … 続きを読む
RECAP: Retrieval-Augmented Audio Captioning
要約 RECAP (REtrieval-Augmented Audio CAPt … 続きを読む
Proactive Detection of Voice Cloning with Localized Watermarking
要約 急速に進化する音声生成モデルの分野では、音声複製のリスクに対して音声の信頼 … 続きを読む
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む
HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids
要約 この文書では、補聴器ユーザー向けに調整された音楽音質評価のための非侵入型デ … 続きを読む
The PESQetarian: On the Relevance of Goodhart’s Law for Speech Enhancement
要約 改善された音声強調モデルを取得するために、研究者は多くの場合、特定の計測基 … 続きを読む
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning
要約 トランスフォーマーは、CNN に基づく方法を超えて、急速にオーディオ分類に … 続きを読む
Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition
要約 我々は、(i) 自己教師付きの事前トレーニング済みモデル、および (ii) … 続きを読む