-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「eess.AS」カテゴリーアーカイブ
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む
Estimating Musical Surprisal in Audio
要約 計算手法を使用して音楽の驚きの期待をモデル化する際に、自己回帰モデルからの … 続きを読む
The Sound of Water: Inferring Physical Properties from Pouring Liquids
要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む
Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing
要約 自己教師あり学習 (SSL) 基盤モデルは、幅広いタスクに適用できる強力で … 続きを読む
MARS6: A Small and Robust Hierarchical-Codec Text-to-Speech Model
要約 コーデックベースの Text-to-Speech (TTS) モデルは、ゼ … 続きを読む
Towards Early Prediction of Self-Supervised Speech Model Performance
要約 自己教師あり学習 (SSL) では、事前トレーニングと評価にリソースが大量 … 続きを読む
Benchmarking Rotary Position Embeddings for Automatic Speech Recognition
要約 Rotary Position Embedding (RoPE) は、シー … 続きを読む
xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement
要約 Conformers などのアテンションベースのアーキテクチャは音声強調に … 続きを読む
FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching
要約 オーディオの超解像度は、その不適切な性質により困難を伴います。 最近、オー … 続きを読む
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
要約 音声ベースの対話モデルの開発に対する需要が高まる中、エンドツーエンドの音声 … 続きを読む