-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Medical Spoken Named Entity Recognition
要約 話された名前の名前のエンティティ認識(NER)は、スピーチから名前のエンテ … 続きを読む
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions
要約 大規模な言語モデル(LLM)の最近の進歩は、さまざまなドメインに革命をもた … 続きを読む
Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation
要約 音声品質評価では、通常、平均意見スコア(MOS)やスピーカーの類似性(SI … 続きを読む
QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions
要約 このペーパーでは、自然言語の説明を活用することにより、音声品質評価に対する … 続きを読む
Continuous Speech Tokenizer in Text To Speech
要約 大規模な言語モデルの時代における言語と言語の融合は、大きな注目を集めていま … 続きを読む
MoMuSE: Momentum Multi-modal Target Speaker Extraction for Real-time Scenarios with Impaired Visual Cues
要約 オーディオビジュアルターゲットスピーカー抽出(AV-TSE)は、時間同期さ … 続きを読む
Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis
要約 トーキングヘッド合成は、コンピューターグラフィックスとマルチメディアの重要 … 続きを読む
Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision
要約 多言語および相互自動音声認識(MCL-ASR) – 音声または … 続きを読む
Magnitude-Phase Dual-Path Speech Enhancement Network based on Self-Supervised Embedding and Perceptual Contrast Stretch Boosting
要約 スピーチの自己学習学習(SSL)は、さまざまな音声処理タスクで大きな進歩を … 続きを読む
MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX
要約 フロンティアモデルは言語のみであるか、主にビジョンと言語のモダリティに焦点 … 続きを読む