「eess.AS」カテゴリーアーカイブ

AdaptVC: High Quality Voice Conversion with Adaptive Learning

投稿日: 2025年1月15日作成者: jarxiv

要約音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Optimizing Speech Multi-View Feature Fusion through Conditional Computation

投稿日: 2025年1月15日作成者: jarxiv

要約最近の進歩により、さまざまな音声関連タスクにおける自己教師あり学習 (SS … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Audio-visual Deepfake Detection With Local Temporal Inconsistencies

投稿日: 2025年1月15日作成者: jarxiv

要約この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR

投稿日: 2025年1月14日作成者: jarxiv

要約センテンシャル内コードスイッチング (CS) は、単一の発話内で発生する言 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

投稿日: 2025年1月14日作成者: jarxiv

要約 Large Audio-Language Model (LALM) は、音 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

投稿日: 2025年1月14日作成者: jarxiv

要約音声言語理解 (SLU) は、音声の分野における構造予測タスクです。最近 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Estimating Musical Surprisal in Audio

投稿日: 2025年1月14日作成者: jarxiv

要約計算手法を使用して音楽の驚きの期待をモデル化する際に、自己回帰モデルからの … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

投稿日: 2025年1月14日作成者: jarxiv

要約私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing

投稿日: 2025年1月13日作成者: jarxiv

要約自己教師あり学習 (SSL) 基盤モデルは、幅広いタスクに適用できる強力で … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

MARS6: A Small and Robust Hierarchical-Codec Text-to-Speech Model

投稿日: 2025年1月13日作成者: jarxiv

要約コーデックベースの Text-to-Speech (TTS) モデルは、ゼ … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

AdaptVC: High Quality Voice Conversion with Adaptive Learning

Optimizing Speech Multi-View Feature Fusion through Conditional Computation

Audio-visual Deepfake Detection With Local Temporal Inconsistencies

AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

Estimating Musical Surprisal in Audio

The Sound of Water: Inferring Physical Properties from Pouring Liquids

Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing

MARS6: A Small and Robust Hierarchical-Codec Text-to-Speech Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー