-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Speech Translation with Large Language Models: An Industrial Practice
要約 さまざまなタスクにわたる大規模言語モデル (LLM) が大きな成功を収めて … 続きを読む
EmphAssess : a Prosodic Benchmark on Assessing Emphasis Transfer in Speech-to-Speech Models
要約 韻律強調をエンコードして再現する音声合成モデルの機能を評価するために設計さ … 続きを読む
On the choice of the optimal temporal support for audio classification with Pre-trained embeddings
要約 現在の最先端のオーディオ分析システムは、事前にトレーニングされた埋め込みモ … 続きを読む
Underwater Acoustic Signal Recognition Based on Salient Features
要約 技術の急速な進歩に伴い、複雑な環境における水中の音響信号の認識がますます重 … 続きを読む
Lattice Rescoring Based on Large Ensemble of Complementary Neural Language Models
要約 自動音声認識 (ASR) 仮説に基づく格子再スコアリングに高度な神経言語モ … 続きを読む
Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition
要約 既存の SSL モデルをターゲット ドメインに適応させるための継続的な自己 … 続きを読む
FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous Self-Supervised Learning
要約 継続的な事前トレーニング (CP) には、ターゲット ドメインへの適応や、 … 続きを読む
Evaluating Speech-in-Speech Perception via a Humanoid Robot
要約 背景の話者によって隠蔽される音声知覚の根本的なメカニズム、つまり日常の一般 … 続きを読む
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling
要約 会話型音声合成 (CSS) は、会話環境内で適切な韻律と感情の抑揚を備えた … 続きを読む
Automated speech audiometry: Can it work using open-source pre-trained Kaldi-NL automatic speech recognition?
要約 実用的な音声聴力測定ツールは、さまざまな年齢や聴力状態の集団の聴力スクリー … 続きを読む