「eess.AS」カテゴリーアーカイブ

Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages

投稿日: 2024年9月17日作成者: jarxiv

要約この論文では、Whisper モデルを使用して低リソース言語の自動音声認識 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper

投稿日: 2024年9月17日作成者: jarxiv

要約この研究では、プロンプトの情報が高性能音声認識モデル Whisper とど … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis

投稿日: 2024年9月17日作成者: jarxiv

要約オーディオ駆動トーキングヘッド合成は、提供されたオーディオから本物のよう … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MusicLIME: Explainable Multimodal Music Understanding

投稿日: 2024年9月17日作成者: jarxiv

要約マルチモーダルモデルは、オーディオと歌詞の間の複雑な相互作用を捉えるため … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems

投稿日: 2024年9月17日作成者: jarxiv

要約音声アシスタントなどの対話システムは、複雑で進化する会話にユーザーと関わる … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

投稿日: 2024年9月17日作成者: jarxiv

要約共同スピーチのジェスチャーはコミュニケーションの基本です。最近の深層学習 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

HLTCOE JHU Submission to the Voice Privacy Challenge 2024

投稿日: 2024年9月16日作成者: jarxiv

要約我々は、kNN-VC 法や WavLM 音声変換法などの音声変換ベースのシ … 続きを読む →

カテゴリー: cs.LG, eess.AS | コメントを受け付けていません

Clean Label Attacks against SLU Systems

投稿日: 2024年9月16日作成者: jarxiv

要約ポイズニングバックドア攻撃では、攻撃者がトレーニングデータを操作して、 … 続きを読む →

カテゴリー: cs.CR, cs.LG, eess.AS | コメントを受け付けていません

Biomimetic Frontend for Differentiable Audio Processing

投稿日: 2024年9月16日作成者: jarxiv

要約オーディオおよび音声処理のモデルはより深く、よりエンドツーエンドになってい … 続きを読む →

カテゴリー: cs.LG, cs.NE, cs.SD, eess.AS | コメントを受け付けていません

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

投稿日: 2024年9月16日作成者: jarxiv

要約大規模言語モデル (LLM) の最近の進歩はさまざまな領域に革命をもたらし … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Meta-Whisper: Speech-Based Meta-ICL for ASR on Low-Resource Languages

Do Prompts Really Prompt? Exploring the Prompt Understanding Capability of Whisper

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis

MusicLIME: Explainable Multimodal Music Understanding

An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems

2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?

HLTCOE JHU Submission to the Voice Privacy Challenge 2024

Clean Label Attacks against SLU Systems

Biomimetic Frontend for Differentiable Audio Processing

Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions

最近の投稿

最近のコメント

アーカイブ

カテゴリー