-
最近の投稿
- Geofenced Unmanned Aerial Robotic Defender for Deer Detection and Deterrence (GUARD)
- mmMirror: Device Free mmWave Indoor NLoS Localization Using Van-Atta-Array IRS
- Fast and Robust Localization for Humanoid Soccer Robot via Iterative Landmark Matching
- Robust 2D lidar-based SLAM in arboreal environments without IMU/GNSS
- REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
-
最近のコメント
表示できるコメントはありません。 cs.AI (38249) cs.CL (28902) cs.CV (43799) cs.HC (2925) cs.LG (43179) cs.RO (22772) cs.SY (3498) eess.IV (5073) eess.SY (3490) stat.ML (5619)
「cs.SD」カテゴリーアーカイブ
Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models
要約 自己教師あり学習 (SSL) の最近の進歩により、話者検証 (SV) にお … 続きを読む
Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training
要約 主流の自動音声認識 (ASR) テクノロジーでは、通常、数百時間から数千時 … 続きを読む
Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT
要約 自己教師付き音声表現学習は、転写されていない音声から意味のある特徴を抽出す … 続きを読む
Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages
要約 この論文では、Whisper モデルを使用して低リソース言語の自動音声認識 … 続きを読む
Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper
要約 この研究では、プロンプトの情報が高性能音声認識モデル Whisper とど … 続きを読む
DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
要約 オーディオ駆動トーキング ヘッド合成は、提供されたオーディオから本物のよう … 続きを読む
MusicLIME: Explainable Multimodal Music Understanding
要約 マルチモーダル モデルは、オーディオと歌詞の間の複雑な相互作用を捉えるため … 続きを読む
An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems
要約 音声アシスタントなどの対話システムは、複雑で進化する会話にユーザーと関わる … 続きを読む
2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?
要約 共同スピーチのジェスチャーはコミュニケーションの基本です。 最近の深層学習 … 続きを読む