-
最近の投稿
- TOFFE — Temporally-binned Object Flow from Events for High-speed and Energy-Efficient Object Detection and Tracking
- ELEGNT: Expressive and Functional Movement Design for Non-anthropomorphic Robot
- Tightly Coupled SLAM with Imprecise Architectural Plans
- LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty
- Interaction Dataset of Autonomous Vehicles with Traffic Lights and Signs
-
最近のコメント
表示できるコメントはありません。 cs.AI (32585) cs.CL (24637) cs.CR (2521) cs.CV (38784) cs.LG (37457) cs.RO (18976) cs.SY (2901) eess.IV (4651) eess.SY (2895) stat.ML (4943)
「cs.SD」カテゴリーアーカイブ
The Sound of Water: Inferring Physical Properties from Pouring Liquids
要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む
Towards Early Prediction of Self-Supervised Speech Model Performance
要約 自己教師あり学習 (SSL) では、事前トレーニングと評価にリソースが大量 … 続きを読む
xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement
要約 Conformers などのアテンションベースのアーキテクチャは音声強調に … 続きを読む
FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching
要約 オーディオの超解像度は、その不適切な性質により困難を伴います。 最近、オー … 続きを読む
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
要約 音声ベースの対話モデルの開発に対する需要が高まる中、エンドツーエンドの音声 … 続きを読む
MultiMed: Multilingual Medical Speech Recognition via Attention Encoder Decoder
要約 医療分野における多言語自動音声認識 (ASR) は、音声翻訳、音声言語理解 … 続きを読む
AccentBox: Towards High-Fidelity Zero-Shot Accent Generation
要約 最近の Zero-Shot Text-to-Speech (ZS-TTS) … 続きを読む
Multi-class Decoding of Attended Speaker Direction Using Electroencephalogram and Audio Spatial Spectrum
要約 聴取者の脳波 (EEG) 信号から聴取者の焦点の指向性を解読することは、聴 … 続きを読む
AnCoGen: Analysis, Control and Generation of Speech with a Masked Autoencoder
要約 この記事では、マスクされたオートエンコーダーを利用して音声信号の分析、制御 … 続きを読む