-
最近の投稿
- Agent-Based Emulation for Deploying Robot Swarm Behaviors
- Automated Planning Domain Inference for Task and Motion Planning
- Tactile Displays Driven by Projected Light
- Caging in Time: A Framework for Robust Object Manipulation under Uncertainties and Limited Robot Perception
- Implicit Contact Diffuser: Sequential Contact Reasoning with Latent Point Cloud Diffusion
-
最近のコメント
表示できるコメントはありません。 cs.AI (28464) cs.CL (21516) cs.CR (2224) cs.CV (35088) cs.LG (33220) cs.RO (16420) cs.SY (2528) eess.IV (4274) eess.SY (2522) stat.ML (4457)
「eess.AS」カテゴリーアーカイブ
FunASR: A Fundamental End-to-End Speech Recognition Toolkit
要約 このペーパーでは、学術研究と産業アプリケーションの間のギャップを埋めるため … 続きを読む
Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering
要約 自己教師あり音声表現モデルはさまざまなタスクで成功していますが、ラベルなし … 続きを読む
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks
要約 畳み込み拡張された Transformer の亜種である Conforme … 続きを読む
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization
要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む
mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra
要約 音声超解像度 (SSR) は、対応する低解像度 (LR) 音声から高解像度 … 続きを読む
QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation
要約 人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities
要約 この研究では、無制限のモダリティに向けた一般表現モデルを構築するためのスケ … 続きを読む
Boosting Local Spectro-Temporal Features for Speech Analysis
要約 音声認識のコンテキストで電話の分類の問題を導入し、電話の分類に使用できる局 … 続きを読む
Using a Large Language Model to Control Speaking Style for Expressive TTS
要約 音声コミュニケーションを成功させるには、適切な韻律が不可欠です。 文脈に応 … 続きを読む
SoundStorm: Efficient Parallel Audio Generation
要約 効率的で非自己回帰的なオーディオ生成モデルである SoundStorm を … 続きを読む