-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model
要約 効果的な口頭コミュニケーションの前提条件の 1 つは、特に非母語話者にとっ … 続きを読む
Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
要約 事前トレーニングされた音声認識モデルのサイズが大きくなるにつれて、これらの … 続きを読む
SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations
要約 エンドツーエンドの音声翻訳は、利用可能なデータ リソースの不足によって妨げ … 続きを読む
End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation
要約 従来の音声からテキストへの翻訳 (ST) システムは、単一話者の発話に基づ … 続きを読む
Disentangling Voice and Content with Self-Supervision for Speaker Recognition
要約 話者認識の場合、話者の特徴と内容が混在しているため、音声から正確な話者 … 続きを読む
Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features
要約 ディープ ニューラル ネットワークは、自動話者認識および関連タスクにおいて … 続きを読む
LAVSS: Location-Guided Audio-Visual Spatial Audio Separation
要約 既存の機械学習研究は、モノラル視聴覚分離 (MAVS) において有望な結果 … 続きを読む
CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model
要約 ノイズ除去拡散確率モデル (DDPM) は、音声合成において有望なパフォー … 続きを読む
Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data
要約 この論文では、Spotify の音楽データを使用して、Spotify AP … 続きを読む
Intel Labs at Ego4D Challenge 2022: A Better Baseline for Audio-Visual Diarization
要約 このレポートでは、Ego4D Challenge 2022 のオーディオビ … 続きを読む