-
最近の投稿
- Human-Robot Dialogue Annotation for Multi-Modal Common Ground
- Anticipatory Planning for Performant Long-Lived Robot in Large-Scale Home-Like Environments
- SCOUT: A Situated and Multi-Modal Human-Robot Dialogue Corpus
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
- ForestAlign: Automatic Forest Structure-based Alignment for Multi-view TLS and ALS Point Clouds
-
最近のコメント
表示できるコメントはありません。 cs.AI (29925) cs.CL (22599) cs.CR (2321) cs.CV (36300) cs.LG (34746) cs.RO (17366) cs.SY (2670) eess.IV (4416) eess.SY (2664) stat.ML (4635)
「eess.AS」カテゴリーアーカイブ
Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM
要約 テキスト読み上げ (TTS) モデルは、テキストのみのコーパスを使用して自 … 続きを読む
Predicting User Intents and Musical Attributes from Music Discovery Conversations
要約 意図分類は、入力テキスト クエリからユーザーのニーズを特定するテキスト理解 … 続きを読む
CAFE A Novel Code switching Dataset for Algerian Dialect French and English
要約 この論文では、アルジェリアの方言、フランス語、および英語の間の最初のコード … 続きを読む
Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
要約 このペーパーでは、リアルタイム アプリケーションで遅延が発生し、応答性が制 … 続きを読む
Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks
要約 構文の計算モデルは主にテキストベースです。 ここで私たちは、構文の進化にお … 続きを読む
Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation
要約 TTS モデルは急速に進歩していますが、一貫した堅牢な人間による評価フレー … 続きを読む
DARNet: Dual Attention Refinement Network with Spatiotemporal Construction for Auditory Attention Detection
要約 カクテルパーティーでは、人間は注意を向ける驚くべき能力を発揮します。 聴覚 … 続きを読む
REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR
要約 教師なし自動音声認識 (ASR) は、音声とテキストのペアのデータを監視せ … 続きを読む
Local deployment of large-scale music AI models on commodity hardware
要約 私たちは、汎用ハードウェア上でローカルに大規模な生成 AI モデルを使用し … 続きを読む