-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
SQuId: Measuring Speech Naturalness in Many Languages
要約 テキスト読み上げの研究の多くは人間による評価に依存しているため、多大なコス … 続きを読む
Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition
要約 追加のコンテキスト情報を組み込むことにより、ディープ バイアス手法が、パー … 続きを読む
UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model
要約 この論文では、さまざまな音声逆タスクを解決できる拡散確率モデル UnDif … 続きを読む
Iterative autoregression: a novel trick to improve your low-latency speech enhancement model
要約 ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネント … 続きを読む
VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building [Technical Report]
要約 ユーザーがビデオ データセットに対してドメイン固有のモデルを構築できるよう … 続きを読む
UNSSOR: Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures
要約 複数のスピーカーが同時に存在する残響状態では、各マイクは異なる場所にある複 … 続きを読む
Text-to-Speech Pipeline for Swiss German — A comparison
要約 この研究では、さまざまな Text-to-Speech (TTS) モデル … 続きを読む
MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets
要約 この論文では、トレーニングターゲットがどのように取得されるかということから … 続きを読む
Attention-Based Methods For Audio Question Answering
要約 音声質問応答 (AQA) は、システムに音声および自然言語の質問が提供され … 続きを読む
Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models
要約 主に、暗黙的なセマンティック モデリングにより、自己教師あり学習 (SSL … 続きを読む