-
最近の投稿
- Budget-constrained Collaborative Renewable Energy Forecasting Market
- Med-R$^2$: Crafting Trustworthy LLM Physicians through Retrieval and Reasoning of Evidence-Based Medicine
- SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling
-
最近のコメント
表示できるコメントはありません。 cs.AI (32523) cs.CL (24589) cs.CR (2516) cs.CV (38733) cs.LG (37398) cs.RO (18958) cs.SY (2900) eess.IV (4641) eess.SY (2894) stat.ML (4935)
「cs.SD」カテゴリーアーカイブ
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声 … 続きを読む
Optimizing Speech Multi-View Feature Fusion through Conditional Computation
要約 最近の進歩により、さまざまな音声関連タスクにおける自己教師あり学習 (SS … 続きを読む
Audio-visual Deepfake Detection With Local Temporal Inconsistencies
要約 この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む
AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR
要約 センテンシャル内コードスイッチング (CS) は、単一の発話内で発生する言 … 続きを読む
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
要約 Large Audio-Language Model (LALM) は、音 … 続きを読む
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む
Estimating Musical Surprisal in Audio
要約 計算手法を使用して音楽の驚きの期待をモデル化する際に、自己回帰モデルからの … 続きを読む
The Sound of Water: Inferring Physical Properties from Pouring Liquids
要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む
Towards Early Prediction of Self-Supervised Speech Model Performance
要約 自己教師あり学習 (SSL) では、事前トレーニングと評価にリソースが大量 … 続きを読む