-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.SD」カテゴリーアーカイブ
Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation
要約 話し顔の生成は、特定の音声と正確に同期する必要がある、自然でリアルな顔を合 … 続きを読む
DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation
要約 感情音声変換 (EVC) は、元の言語内容と話者の固有の音声特性を維持しな … 続きを読む
VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching
要約 テキスト読み上げにおける拡散モデルは、その強力な生成能力により一般的な選択 … 続きを読む
An Explainable Proxy Model for Multiabel Audio Segmentation
要約 オーディオ信号のセグメンテーションは、自動オーディオ インデックス作成の重 … 続きを読む
NAAQA: A Neural Architecture for Acoustic Question Answering
要約 音響質問応答 (AQA) タスクの目標は、音響シーンの内容に関する自由形式 … 続きを読む
Learning Temporal Resolution in Spectrogram for Audio Classification
要約 オーディオ スペクトログラムは、オーディオの分類に広く使用されている時間と … 続きを読む
Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific Knowledge
要約 この論文は、これまでの文献では十分に取り上げられていなかった、特に低リソー … 続きを読む
Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints
要約 この論文では、強力な遅延制約を伴う音声音声認識におけるコネクショニスト手法 … 続きを読む
Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?
要約 実用的な音声聴力測定ツールは、さまざまな年齢や聴力状態の集団の聴力スクリー … 続きを読む
A-JEPA: Joint-Embedding Predictive Architecture Can Listen
要約 この論文では、大規模な基礎ビジョン モデルの成功を推進するマスク モデリン … 続きを読む