「cs.SD」カテゴリーアーカイブ

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

投稿日: 2024年8月7日作成者: jarxiv

要約大規模なマルチモダリティデータセットは、大規模なビデオ言語モデルの成功を … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation

投稿日: 2024年8月6日作成者: jarxiv

要約この論文では、特定の音楽コンテキストとよく調和する単一の楽器の音声録音を特 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

An approach to optimize inference of the DIART speaker diarization pipeline

投稿日: 2024年8月6日作成者: jarxiv

要約話者ダイアライゼーションは、音声ファイルについて「誰がいつ話したか」という … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition

投稿日: 2024年8月6日作成者: jarxiv

要約最新の自動音声認識 (ASR) システムは通常、数万時間以上の音声データに … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Language Model Can Listen While Speaking

投稿日: 2024年8月6日作成者: jarxiv

要約対話は、人間とコンピューターの対話 (HCI) の最も自然な方法として機能 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

投稿日: 2024年8月5日作成者: jarxiv

要約音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework

投稿日: 2024年8月5日作成者: jarxiv

要約一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework

投稿日: 2024年8月4日作成者: jarxiv

要約音声駆動型ジェスチャ生成は、バーチャルヒューマン創作における新たな領域であ … 続きを読む →

カテゴリー: cs.AI, cs.GR, cs.RO, cs.SD | コメントを受け付けていません

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

投稿日: 2024年8月4日作成者: jarxiv

要約西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む →

カテゴリー: 68P20, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | コメントを受け付けていません

Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

投稿日: 2024年8月4日作成者: jarxiv

要約近年、大規模音声合成（TTS）モデルは大きな進歩を遂げているが、中国語の方 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation

An approach to optimize inference of the DIART speaker diarization pipeline

Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition

Language Model Can Listen While Speaking

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework

DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

最近の投稿

最近のコメント

アーカイブ

カテゴリー