-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Application of Knowledge Distillation to Multi-task Speech Representation Learning
要約 wav2vec 2.0 や HuBERT などのモデル アーキテクチャは、 … 続きを読む
MIDI-Draw: Sketching to Control Melody Generation
要約 メロディーの輪郭を介して音符レベルの入力表現を抽象化する、メロディーを描画 … 続きを読む
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning
要約 音声は人間が外界と通信するためのシンプルかつ効果的な方法ですが、より現実的 … 続きを読む
What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics
要約 この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーデ … 続きを読む
Points2Sound: From mono to binaural audio using 3D point cloud scenes
要約 没入型アプリケーションの場合、仮想環境で人々に有意義な体験をもたらすために … 続きを読む
Any-to-Any Generation via Composable Diffusion
要約 我々は、入力モダリティの任意の組み合わせから、言語、画像、ビデオ、オーディ … 続きを読む
FunASR: A Fundamental End-to-End Speech Recognition Toolkit
要約 このペーパーでは、学術研究と産業アプリケーションの間のギャップを埋めるため … 続きを読む
A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks
要約 畳み込み拡張された Transformer の亜種である Conforme … 続きを読む
Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization
要約 私たちは、最近提案されたウェブスケールの音声モデル Whisper の新た … 続きを読む
QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation
要約 人間の動作にはランダムなジッターがあるため、音声駆動のジェスチャ生成は非常 … 続きを読む