cs.SD」カテゴリーアーカイブ

Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture

要約 受動的音響モニタリングは、音響的には活動的だが視覚的に調査するのが難しい野 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, stat.ME | Towards Automated Animal Density Estimation with Acoustic Spatial Capture-Recapture はコメントを受け付けていません

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

要約 自動音声発音評価の設計は、クローズド応答シナリオとオープン応答シナリオに分 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario はコメントを受け付けていません

Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion

要約 音声のクローン作成や、ある個人から別の個人へのリアルタイムの音声変換を可能 … 続きを読む

カテゴリー: cs.CL, cs.HC, cs.LG, cs.SD, eess.AS | Real-time Detection of AI-Generated Speech for DeepFake Voice Conversion はコメントを受け付けていません

WavMark: Watermarking for Audio Generation

要約 ゼロショット音声合成における最近の進歩により、高レベルのリアリズムを維持し … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | WavMark: Watermarking for Audio Generation はコメントを受け付けていません

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes

要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes はコメントを受け付けていません

Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement

要約 私たちは、類似しているがわずかに異なるオーディオ クリップの入力ペア間の意 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement はコメントを受け付けていません

Audio Generation with Multiple Conditional Diffusion Model

要約 テキストベースのオーディオ生成モデルには、オーディオ内のすべての情報を網羅 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Audio Generation with Multiple Conditional Diffusion Model はコメントを受け付けていません

Convoifilter: A case study of doing cocktail party speech recognition

要約 このペーパーでは、混雑した騒々しい環境における特定の話者の自動音声認識 ( … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Convoifilter: A case study of doing cocktail party speech recognition はコメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

要約 テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning はコメントを受け付けていません

Furnishing Sound Event Detection with Language Model Abilities

要約 最近、言語モデル (LM) の機能が視覚的クロスモダリティにおいてますます … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Furnishing Sound Event Detection with Language Model Abilities はコメントを受け付けていません