-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
An approach to optimize inference of the DIART speaker diarization pipeline
要約 話者ダイアライゼーションは、音声ファイルについて「誰がいつ話したか」という … 続きを読む
Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition
要約 最新の自動音声認識 (ASR) システムは通常、数万時間以上の音声データに … 続きを読む
Language Model Can Listen While Speaking
要約 対話は、人間とコンピューターの対話 (HCI) の最も自然な方法として機能 … 続きを読む
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む
Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework
要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む
ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む
Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation
要約 近年、大規模音声合成(TTS)モデルは大きな進歩を遂げているが、中国語の方 … 続きを読む
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data
要約 本論文では、3つのマルチモーダル言語理解タスク、AV-ASR(視聴覚自動音 … 続きを読む
YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation
要約 マルチ楽器音楽転写は、ポリフォニック音楽録音を各楽器に割り当てられた楽譜に … 続きを読む
Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms
要約 VoIP (Voice over Internet Protocol) 通 … 続きを読む