-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Enhancing Suicide Risk Assessment: A Speech-Based Automated Approach in Emergency Medicine
要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む
Vesper: A Compact and Effective Pretrained Model for Speech Emotion Recognition
要約 この論文では、一般的な大規模事前学習モデル (PTM) を音声感情認識タス … 続きを読む
Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair
要約 同時機械翻訳 (SiMT) システムでは、同時通訳 (SI) コーパスを使 … 続きを読む
Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey
要約 深層学習 (DL) の最近の進歩により、自動音声認識 (ASR) にとって … 続きを読む
Dynamic Modality and View Selection for Multimodal Emotion Recognition with Missing Modalities
要約 人間の感情の研究は、伝統的に心理学や神経科学などの分野の基礎でしたが、人工 … 続きを読む
The LuViRA Dataset: Measurement Description
要約 視覚、音声、無線センサーを利用した位置特定アルゴリズムを評価するためのデー … 続きを読む
Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization
要約 ジェネレーティブ マルチモーダル コンテンツは、アーティストやメディア担当 … 続きを読む
Anatomy of Industrial Scale Multilingual ASR
要約 このペーパーでは、さまざまなアプリケーション ニーズに対応する大規模な多言 … 続きを読む
Llama-VITS: Enhancing TTS Synthesis with Semantic Awareness
要約 自然言語処理 (NLP) の最近の進歩により、大規模言語モデル (LLM) … 続きを読む
Differentiable All-pole Filters for Time-varying Audio Systems
要約 無限インパルス応答フィルターは、オーディオ エフェクトやシンセサイザーなど … 続きを読む