「cs.SD」カテゴリーアーカイブ

Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection

投稿日: 2024年1月11日作成者: jarxiv

要約リアルタイムかつ継続的な方向転換予測システムのデモンストレーションが行われ … 続きを読む →

カテゴリー: cs.CL, cs.HC, cs.SD, eess.AS | コメントを受け付けていません

Learning Audio Concepts from Counterfactual Natural Language

投稿日: 2024年1月11日作成者: jarxiv

要約従来の音声分類は事前定義されたクラスに依存しており、自由形式のテキストから … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector

投稿日: 2024年1月11日作成者: jarxiv

要約音声モダリティ（音声ベース）の自然言語処理における毒性検出の研究は、特に英 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters

投稿日: 2024年1月11日作成者: jarxiv

要約ゼロショット音声合成 (TTS) 方法は、自己教師あり学習 (SSL) 音 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

投稿日: 2024年1月11日作成者: jarxiv

要約最大 60% が英語で公開されているインターネットの豊富なコンテンツは、英 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement

投稿日: 2024年1月10日作成者: jarxiv

要約オーディオ間 (A2A) スタイル転送の問題には、ソースオーディオのコン … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks

投稿日: 2024年1月10日作成者: jarxiv

要約 GANStrument は、ピッチ不変特徴抽出器とインスタンス調整技術で … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

投稿日: 2024年1月10日作成者: jarxiv

要約感情表現にはマルチモーダルな性質があるため、会話における感情認識は困難です … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Masked Audio Generation using a Single Non-Autoregressive Transformer

投稿日: 2024年1月10日作成者: jarxiv

要約オーディオトークンの複数のストリームに対して直接動作する、マスクされた生 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Theoretical Framework for the Optimization of Microphone Array Configuration for Humanoid Robot Audition

投稿日: 2024年1月9日作成者: jarxiv

要約人型ロボットの重要な側面は聴覚です。これまでの研究では、さまざまな構成の … 続きを読む →

カテゴリー: cs.RO, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

Real-time and Continuous Turn-taking Prediction Using Voice Activity Projection

Learning Audio Concepts from Counterfactual Natural Language

MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector

Noise-robust zero-shot text-to-speech synthesis conditioned on self-supervised speech-representation model with adapters

ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks

HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition

Masked Audio Generation using a Single Non-Autoregressive Transformer

Theoretical Framework for the Optimization of Microphone Array Configuration for Humanoid Robot Audition

最近の投稿

最近のコメント

アーカイブ

カテゴリー