-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「eess.AS」カテゴリーアーカイブ
Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation
要約 この論文では、特定の音楽コンテキストとよく調和する単一の楽器の音声録音を特 … 続きを読む
An approach to optimize inference of the DIART speaker diarization pipeline
要約 話者ダイアライゼーションは、音声ファイルについて「誰がいつ話したか」という … 続きを読む
Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition
要約 最新の自動音声認識 (ASR) システムは通常、数万時間以上の音声データに … 続きを読む
Language Model Can Listen While Speaking
要約 対話は、人間とコンピューターの対話 (HCI) の最も自然な方法として機能 … 続きを読む
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む
Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework
要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む
ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む
Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation
要約 近年、大規模音声合成(TTS)モデルは大きな進歩を遂げているが、中国語の方 … 続きを読む
SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data
要約 本論文では、3つのマルチモーダル言語理解タスク、AV-ASR(視聴覚自動音 … 続きを読む
YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation
要約 マルチ楽器音楽転写は、ポリフォニック音楽録音を各楽器に割り当てられた楽譜に … 続きを読む