eess.AS」カテゴリーアーカイブ

Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation

要約 この論文では、特定の音楽コンテキストとよく調和する単一の楽器の音声録音を特 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation はコメントを受け付けていません

An approach to optimize inference of the DIART speaker diarization pipeline

要約 話者ダイアライゼーションは、音声ファイルについて「誰がいつ話したか」という … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | An approach to optimize inference of the DIART speaker diarization pipeline はコメントを受け付けていません

Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition

要約 最新の自動音声認識 (ASR) システムは通常、数万時間以上の音声データに … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition はコメントを受け付けていません

Language Model Can Listen While Speaking

要約 対話は、人間とコンピューターの対話 (HCI) の最も自然な方法として機能 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SD, eess.AS | Language Model Can Listen While Speaking はコメントを受け付けていません

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models はコメントを受け付けていません

Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework

要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework はコメントを受け付けていません

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む

カテゴリー: 68P20, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio はコメントを受け付けていません

Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

要約 近年、大規模音声合成(TTS)モデルは大きな進歩を遂げているが、中国語の方 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation はコメントを受け付けていません

SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data

要約 本論文では、3つのマルチモーダル言語理解タスク、AV-ASR(視聴覚自動音 … 続きを読む

カテゴリー: cs.CL, cs.CV, eess.AS | SynesLM: A Unified Approach for Audio-visual Speech Recognition and Translation via Language Model and Synthetic Data はコメントを受け付けていません

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

要約 マルチ楽器音楽転写は、ポリフォニック音楽録音を各楽器に割り当てられた楽譜に … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation はコメントを受け付けていません