-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.SD」カテゴリーアーカイブ
Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?
要約 強勢、イントネーション、リズムなどの特徴を含む、話し言葉の韻律は、基礎とな … 続きを読む
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models
要約 音声言語モデル (SLM) は、テキストベースのデコーダのみの言語モデルの … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む
Non-Invasive Suicide Risk Prediction Through Speech Analysis
要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む
Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach
要約 音声言語モデリングの最近の進歩により、音声から直接言語を学習することが可能 … 続きを読む
A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization
要約 マーモセットは、高度に鳴き声を発する霊長類であり、社会的コミュニケーション … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む
Sing it, Narrate it: Quality Musical Lyrics Translation
要約 ミュージカルの歌詞の翻訳には、長さや韻などの歌いやすさの要件を守りながら、 … 続きを読む
Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech
要約 自己回帰 (AR) Transformer ベースのシーケンス モデルは、 … 続きを読む