「cs.SD」カテゴリーアーカイブ

WavMark: Watermarking for Audio Generation

投稿日: 2023年8月25日作成者: jarxiv

要約ゼロショット音声合成における最近の進歩により、高レベルのリアリズムを維持し … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

投稿日: 2023年8月24日作成者: jarxiv

要約我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

投稿日: 2023年8月24日作成者: jarxiv

要約私たちは、類似しているがわずかに異なるオーディオクリップの入力ペア間の意 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Audio Generation with Multiple Conditional Diffusion Model

投稿日: 2023年8月24日作成者: jarxiv

要約テキストベースのオーディオ生成モデルには、オーディオ内のすべての情報を網羅 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Convoifilter: A case study of doing cocktail party speech recognition

投稿日: 2023年8月23日作成者: jarxiv

要約このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

投稿日: 2023年8月23日作成者: jarxiv

要約テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Furnishing Sound Event Detection with Language Model Abilities

投稿日: 2023年8月23日作成者: jarxiv

要約最近、言語モデル (LM) の機能が視覚的クロスモダリティにおいてますます … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

投稿日: 2023年8月22日作成者: jarxiv

要約最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Implicit Self-supervised Language Representation for Spoken Language Diarization

投稿日: 2023年8月22日作成者: jarxiv

要約コード交換 (CS) シナリオでは、事前所有システムとして音声言語ダイアラ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices

投稿日: 2023年8月22日作成者: jarxiv

要約 LibriWASN は、LibriCSS 会議認識データセットに厳密に準 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「cs.SD」カテゴリーアーカイブ

WavMark: Watermarking for Audio Generation

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

Audio Generation with Multiple Conditional Diffusion Model

Convoifilter: A case study of doing cocktail party speech recognition

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

Furnishing Sound Event Detection with Language Model Abilities

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

Implicit Self-supervised Language Representation for Spoken Language Diarization

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices

最近の投稿

最近のコメント

アーカイブ

カテゴリー