-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks
要約 畳み込み拡張された Transformer の亜種である Conforme … 続きを読む
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization
要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む
mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra
要約 音声超解像度 (SSR) は、対応する低解像度 (LR) 音声から高解像度 … 続きを読む
QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation
要約 人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities
要約 この研究では、無制限のモダリティに向けた一般表現モデルを構築するためのスケ … 続きを読む
Boosting Local Spectro-Temporal Features for Speech Analysis
要約 音声認識のコンテキストで電話の分類の問題を導入し、電話の分類に使用できる局 … 続きを読む
Using a Large Language Model to Control Speaking Style for Expressive TTS
要約 音声コミュニケーションを成功させるには、適切な韻律が不可欠です。 文脈に応 … 続きを読む
SoundStorm: Efficient Parallel Audio Generation
要約 効率的で非自己回帰的なオーディオ生成モデルである SoundStorm を … 続きを読む
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation
要約 エンドツーエンドの音声言語理解 (SLU) は、テキストと音声に関する現在 … 続きを読む