eess.AS」カテゴリーアーカイブ

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

要約 私たちは、類似しているがわずかに異なるオーディオ クリップの入力ペア間の意 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement はコメントを受け付けていません

Audio Generation with Multiple Conditional Diffusion Model

要約 テキストベースのオーディオ生成モデルには、オーディオ内のすべての情報を網羅 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio Generation with Multiple Conditional Diffusion Model はコメントを受け付けていません

Convoifilter: A case study of doing cocktail party speech recognition

要約 このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Convoifilter: A case study of doing cocktail party speech recognition はコメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

要約 テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning はコメントを受け付けていません

Furnishing Sound Event Detection with Language Model Abilities

要約 最近、言語モデル (LM) の機能が視覚的クロスモダリティにおいてますます … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Furnishing Sound Event Detection with Language Model Abilities はコメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition はコメントを受け付けていません

Implicit Self-supervised Language Representation for Spoken Language Diarization

要約 コード交換 (CS) シナリオでは、事前所有システムとして音声言語ダイアラ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Implicit Self-supervised Language Representation for Spoken Language Diarization はコメントを受け付けていません

LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices

要約 LibriWASN は、LibriCSS 会議認識データ セットに厳密に準 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | LibriWASN: A Data Set for Meeting Separation, Diarization, and Recognition with Asynchronous Recording Devices はコメントを受け付けていません

Federated learning for secure development of AI models for Parkinson’s disease detection using speech from different languages

要約 パーキンソン病 (PD) は、人の言語に影響を与える神経疾患です。 自動 … 続きを読む

カテゴリー: cs.AI, cs.LG, eess.AS | Federated learning for secure development of AI models for Parkinson’s disease detection using speech from different languages はコメントを受け付けていません

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

要約 私たちが知覚する画像と音は、頭を回転させると、微妙ですが幾何学的に一貫した … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation はコメントを受け付けていません