-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models
要約 話者属性自動音声認識 (SA-ASR) は、音声を文字に起こしながら、対応 … 続きを読む
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
要約 近年、画像合成やテキスト生成の分野でAIGC(Artificial Int … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声 … 続きを読む
Optimizing Speech Multi-View Feature Fusion through Conditional Computation
要約 最近の進歩により、さまざまな音声関連タスクにおける自己教師あり学習 (SS … 続きを読む
Audio-visual Deepfake Detection With Local Temporal Inconsistencies
要約 この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む
AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR
要約 センテンシャル内コードスイッチング (CS) は、単一の発話内で発生する言 … 続きを読む
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
要約 Large Audio-Language Model (LALM) は、音 … 続きを読む
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む
Estimating Musical Surprisal in Audio
要約 計算手法を使用して音楽の驚きの期待をモデル化する際に、自己回帰モデルからの … 続きを読む