-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture
要約 音声生成は、さまざまな調音の特徴の調整を含む複雑な連続プロセスです。 その … 続きを読む
Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition
要約 このペーパーでは、監視なしで監視されたAL方法を組み合わせた、自動音声認識 … 続きを読む
Spatial Audio Processing with Large Language Model on Wearable Devices
要約 空間的コンテキストを大規模な言語モデル(LLM)に統合することは、特にウェ … 続きを読む
Kimi-Audio Technical Report
要約 オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーショ … 続きを読む
Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator
要約 最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む
AudioX: Diffusion Transformer for Anything-to-Audio Generation
要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む
VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation
要約 音声大規模な言語モデル(LLM)は、音声処理における顕著な研究の焦点として … 続きを読む
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications
要約 このペーパーでは、Swissドイツ語をケーススタディとして使用して、文レベ … 続きを読む
Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis
要約 このホワイトペーパーでは、オーディオデータとビデオデータの両方を活用して、 … 続きを読む