「eess.AS」カテゴリーアーカイブ

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

投稿日: 2023年8月24日作成者: jarxiv

要約私たちは、類似しているがわずかに異なるオーディオクリップの入力ペア間の意 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Audio Generation with Multiple Conditional Diffusion Model

投稿日: 2023年8月24日作成者: jarxiv

要約テキストベースのオーディオ生成モデルには、オーディオ内のすべての情報を網羅 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Convoifilter: A case study of doing cocktail party speech recognition

投稿日: 2023年8月23日作成者: jarxiv

要約このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

投稿日: 2023年8月23日作成者: jarxiv

要約テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Furnishing Sound Event Detection with Language Model Abilities

投稿日: 2023年8月23日作成者: jarxiv

要約最近、言語モデル (LM) の機能が視覚的クロスモダリティにおいてますます … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

投稿日: 2023年8月22日作成者: jarxiv

要約最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Implicit Self-supervised Language Representation for Spoken Language Diarization

投稿日: 2023年8月22日作成者: jarxiv

要約コード交換 (CS) シナリオでは、事前所有システムとして音声言語ダイアラ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices

投稿日: 2023年8月22日作成者: jarxiv

要約 LibriWASN は、LibriCSS 会議認識データセットに厳密に準 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Federated learning for secure development of AI models for Parkinson’s disease detection using speech from different languages

投稿日: 2023年8月22日作成者: jarxiv

要約パーキンソン病 (PD) は、人の言語に影響を与える神経疾患です。自動 … 続きを読む →

カテゴリー: cs.AI, cs.LG, eess.AS | コメントを受け付けていません

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

投稿日: 2023年8月22日作成者: jarxiv

要約私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

Audio Generation with Multiple Conditional Diffusion Model

Convoifilter: A case study of doing cocktail party speech recognition

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

Furnishing Sound Event Detection with Language Model Abilities

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

Implicit Self-supervised Language Representation for Spoken Language Diarization

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices

Federated learning for secure development of AI models for Parkinson’s disease detection using speech from different languages

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

最近の投稿

最近のコメント

アーカイブ

カテゴリー