-
最近の投稿
- Agent-Based Emulation for Deploying Robot Swarm Behaviors
- Automated Planning Domain Inference for Task and Motion Planning
- Tactile Displays Driven by Projected Light
- Caging in Time: A Framework for Robust Object Manipulation under Uncertainties and Limited Robot Perception
- Implicit Contact Diffuser: Sequential Contact Reasoning with Latent Point Cloud Diffusion
-
最近のコメント
表示できるコメントはありません。 cs.AI (28464) cs.CL (21516) cs.CR (2224) cs.CV (35088) cs.LG (33220) cs.RO (16420) cs.SY (2528) eess.IV (4274) eess.SY (2522) stat.ML (4457)
「eess.AS」カテゴリーアーカイブ
Application of Knowledge Distillation to Multi-task Speech Representation Learning
要約 wav2vec 2.0 や HuBERT などのモデル アーキテクチャは、 … 続きを読む
North Sámi Dialect Identification with Self-supervised Speech Models
要約 北スミ (NS) 言語は、関連しているものの音韻、形態、語彙に違いがある … 続きを読む
MIDI-Draw: Sketching to Control Melody Generation
要約 メロディーの輪郭を介して音符レベルの入力表現を抽象化する、メロディーを描画 … 続きを読む
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning
要約 音声は人間が外界と通信するためのシンプルかつ効果的な方法ですが、より現実的 … 続きを読む
What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics
要約 この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーデ … 続きを読む
Points2Sound: From mono to binaural audio using 3D point cloud scenes
要約 没入型アプリケーションの場合、仮想環境で人々に有意義な体験をもたらすために … 続きを読む
Any-to-Any Generation via Composable Diffusion
要約 我々は、入力モダリティの任意の組み合わせから、言語、画像、ビデオ、オーディ … 続きを読む
Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation
要約 自動音声認識 (ASR) システムのパフォーマンスは、近年、特に大量の音声 … 続きを読む
mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra
要約 音声超解像度 (SSR) は、対応する低解像度 (LR) 音声から高解像度 … 続きを読む
Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation
要約 自動音声認識 (ASR) システムのパフォーマンスは、近年、特に大量の音声 … 続きを読む