-
最近の投稿
- Identifying and Addressing Delusions for Target-Directed Decision-Making
- Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond
- Context-Aware Command Understanding for Tabletop Scenarios
- Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications
- Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
-
最近のコメント
表示できるコメントはありません。 cs.AI (27853) cs.CL (21045) cs.CR (2180) cs.CV (34557) cs.LG (32593) cs.RO (15973) cs.SY (2479) eess.IV (4238) eess.SY (2473) stat.ML (4364)
「cs.SD」カテゴリーアーカイブ
Exploratory Evaluation of Speech Content Masking
要約 最近の音声プライバシーの取り組みのほとんどは、音響話者の属性を匿名化するこ … 続きを読む
Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering
要約 話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーショ … 続きを読む
Convoifilter: A case study of doing cocktail party speech recognition
要約 このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む
Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification
要約 近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む
Retrieval-Augmented Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む
Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
要約 人型ロボットの聴覚システムは、近年ますます注目を集めています。 このシステ … 続きを読む
PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
要約 PEFT(Parameter-Efficient Fine-Tuning) … 続きを読む
Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition
要約 自動音声認識(ASR)システムの単語エラー率は一貫して低下しているが、AS … 続きを読む
Let There Be Sound: Reconstructing High Quality Speech from Silent Videos
要約 この研究の目標は、唇の動きのみから高品質の音声を再構成することであり、この … 続きを読む
Perceptual Musical Features for Interpretable Audio Tagging
要約 音楽ストリーミングプラットフォームの時代において、音楽音声に自動的にタグを … 続きを読む