-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.SD」カテゴリーアーカイブ
Audio-visual Deepfake Detection With Local Temporal Inconsistencies
要約 この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む
AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR
要約 センテンシャル内コードスイッチング (CS) は、単一の発話内で発生する言 … 続きを読む
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
要約 Large Audio-Language Model (LALM) は、音 … 続きを読む
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む
Estimating Musical Surprisal in Audio
要約 計算手法を使用して音楽の驚きの期待をモデル化する際に、自己回帰モデルからの … 続きを読む
The Sound of Water: Inferring Physical Properties from Pouring Liquids
要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む
Towards Early Prediction of Self-Supervised Speech Model Performance
要約 自己教師あり学習 (SSL) では、事前トレーニングと評価にリソースが大量 … 続きを読む
xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement
要約 Conformers などのアテンションベースのアーキテクチャは音声強調に … 続きを読む
FLowHigh: Towards Efficient and High-Quality Audio Super-Resolution with Single-Step Flow Matching
要約 オーディオの超解像度は、その不適切な性質により困難を伴います。 最近、オー … 続きを読む
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
要約 音声ベースの対話モデルの開発に対する需要が高まる中、エンドツーエンドの音声 … 続きを読む