-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Exploratory Evaluation of Speech Content Masking
要約 最近の音声プライバシーの取り組みのほとんどは、音響話者の属性を匿名化するこ … 続きを読む
Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering
要約 話者ダイアライゼーションにおける最近の研究の進歩は、主にダイアライゼーショ … 続きを読む
Convoifilter: A case study of doing cocktail party speech recognition
要約 このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む
Toward A Reinforcement-Learning-Based System for Adjusting Medication to Minimize Speech Disfluency
要約 私たちは強化学習ベースのシステムを提案します。このシステムは、メンタルヘル … 続きを読む
Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video Classification
要約 近年、研究者は音声信号とビデオ信号の両方を組み合わせて、アクションが視覚的 … 続きを読む
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks
要約 音声言語理解 (SLU) の分野では、従来の書き言葉の代わりに音声を書き起 … 続きを読む
Retrieval-Augmented Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成における最近の進歩にも関わらず … 続きを読む
Pheme: Efficient and Conversational Speech Generation
要約 近年、音声生成は目覚ましい進歩を遂げており、実際の人間の声とほとんど区別で … 続きを読む
Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
要約 人型ロボットの聴覚システムは、近年ますます注目を集めています。 このシステ … 続きを読む
PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
要約 PEFT(Parameter-Efficient Fine-Tuning) … 続きを読む