-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities
要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む
UniGlyph: A Seven-Segment Script for Universal Language Representation
要約 UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユ … 続きを読む
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models
要約 柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (L … 続きを読む
Sylber: Syllabic Embedding Representation of Speech from Raw Audio
要約 音節は、人間の音声の知覚と生成において重要な役割を果たす話し言葉の構成単位 … 続きを読む
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling
要約 ビデオとオーディオの双方向の条件付き生成に合わせたマルチモーダル拡散モデル … 続きを読む
Presto! Distilling Steps and Layers for Accelerating Music Generation
要約 拡散ベースのテキスト音楽変換 (TTM) 手法は進歩していますが、効率的で … 続きを読む
Non-Invasive Suicide Risk Prediction Through Speech Analysis
要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む
CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation
要約 ストリーミング音声翻訳 (ST) のモデルは、ソース言語の音声とターゲット … 続きを読む
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition
要約 テキストやビデオ入力に基づく音声生成、編集、作曲のためのマルチモーダルフレ … 続きを読む