-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Sylber: Syllabic Embedding Representation of Speech from Raw Audio
要約 音節は、人間の音声の知覚と生成において重要な役割を果たす話し言葉の構成単位 … 続きを読む
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling
要約 ビデオとオーディオの双方向の条件付き生成に合わせたマルチモーダル拡散モデル … 続きを読む
Presto! Distilling Steps and Layers for Accelerating Music Generation
要約 拡散ベースのテキスト音楽変換 (TTM) 手法は進歩していますが、効率的で … 続きを読む
Non-Invasive Suicide Risk Prediction Through Speech Analysis
要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition
要約 テキストやビデオ入力に基づく音声生成、編集、作曲のためのマルチモーダルフレ … 続きを読む
SonicSense: Object Perception from In-Hand Acoustic Vibration
要約 SonicSenseを紹介する。SonicSenseは、ハードウェアとソフ … 続きを読む
Enhancing the analysis of murine neonatal ultrasonic vocalizations: Development, evaluation, and application of different mathematical models
要約 げっ歯類は、社会的コミュニケーションのために広範囲の超音波発声 (USV) … 続きを読む
Active Listener: Continuous Generation of Listener’s Head Motion Response in Dyadic Interactions
要約 二項音声対話の重要な要素は、対話者の発話に対する聞き手の反応を反映する頭の … 続きを読む
AfriHuBERT: A self-supervised speech representation model for African languages
要約 この研究では、もともと 147 の言語で事前トレーニングされた、最先端 ( … 続きを読む
Alignment-Free Training for Transducer-based Multi-Talker ASR
要約 RNN トランスデューサ (RNNT) を拡張して複数話者の音声を認識する … 続きを読む