cs.SD」カテゴリーアーカイブ

WavMark: Watermarking for Audio Generation

要約 ゼロショット音声合成における最近の進歩により、高レベルのリアリズムを維持し … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | WavMark: Watermarking for Audio Generation はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

要約 私たちは、類似しているがわずかに異なるオーディオ クリップの入力ペア間の意 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement はコメントを受け付けていません

Audio Generation with Multiple Conditional Diffusion Model

要約 テキストベースのオーディオ生成モデルには、オーディオ内のすべての情報を網羅 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio Generation with Multiple Conditional Diffusion Model はコメントを受け付けていません

Convoifilter: A case study of doing cocktail party speech recognition

要約 このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Convoifilter: A case study of doing cocktail party speech recognition はコメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

要約 テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning はコメントを受け付けていません

Furnishing Sound Event Detection with Language Model Abilities

要約 最近、言語モデル (LM) の機能が視覚的クロスモダリティにおいてますます … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Furnishing Sound Event Detection with Language Model Abilities はコメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition はコメントを受け付けていません

Implicit Self-supervised Language Representation for Spoken Language Diarization

要約 コード交換 (CS) シナリオでは、事前所有システムとして音声言語ダイアラ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Implicit Self-supervised Language Representation for Spoken Language Diarization はコメントを受け付けていません

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices

要約 LibriWASN は、LibriCSS 会議認識データ セットに厳密に準 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices はコメントを受け付けていません