-
最近の投稿
- A Data-Driven Modeling and Motion Control of Heavy-Load Hydraulic Manipulators via Reversible Transformation
- Data-Driven Multi-step Nonlinear Model Predictive Control for Industrial Heavy Load Hydraulic Robot
- Image Compression Using Novel View Synthesis Priors
- OTO Planner: An Efficient Only Travelling Once Exploration Planner for Complex and Unknown Environments
- t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving
-
最近のコメント
表示できるコメントはありません。 cs.AI (29990) cs.CL (22653) cs.CR (2325) cs.CV (36362) cs.LG (34812) cs.RO (17416) cs.SY (2673) eess.IV (4425) eess.SY (2667) stat.ML (4642)
「eess.AS」カテゴリーアーカイブ
Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios
要約 音声による同時ジェスチャー生成は、人間とコンピュータのコミュニケーション、 … 続きを読む
Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody?
要約 強勢、イントネーション、リズムなどの特徴を含む、話し言葉の韻律は、基礎とな … 続きを読む
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models
要約 音声言語モデル (SLM) は、テキストベースのデコーダのみの言語モデルの … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む
Non-Invasive Suicide Risk Prediction Through Speech Analysis
要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む
Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach
要約 音声言語モデリングの最近の進歩により、音声から直接言語を学習することが可能 … 続きを読む
A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization
要約 マーモセットは、高度に鳴き声を発する霊長類であり、社会的コミュニケーション … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む
Sing it, Narrate it: Quality Musical Lyrics Translation
要約 ミュージカルの歌詞の翻訳には、長さや韻などの歌いやすさの要件を守りながら、 … 続きを読む
Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech
要約 自己回帰 (AR) Transformer ベースのシーケンス モデルは、 … 続きを読む