cs.SD」カテゴリーアーカイブ

Exploring Finetuned Audio-LLM on Heart Murmur Features

要約 オーディオの大規模言語モデル (LLM) は、人間の音声、音楽、環境音の認 … 続きを読む

カテゴリー: cs.AI, cs.SD, eess.AS | Exploring Finetuned Audio-LLM on Heart Murmur Features はコメントを受け付けていません

Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward

要約 最近の研究では、音声基盤エンコーダと大規模言語モデル (LLM) の間の線 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Performance evaluation of SLAM-ASR: The Good, the Bad, the Ugly, and the Way Forward はコメントを受け付けていません

Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks

要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.NE, cs.SD, eess.AS | Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks はコメントを受け付けていません

FlanEC: Exploring Flan-T5 for Post-ASR Error Correction

要約 この論文では、自動音声認識 (ASR) 後の生成音声誤り訂正 (GenSE … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | FlanEC: Exploring Flan-T5 for Post-ASR Error Correction はコメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling はコメントを受け付けていません

Audio Texture Manipulation by Exemplar-Based Analogy

要約 オーディオ テクスチャの操作には、聴覚要素の追加、削除、置換などの特定の変 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Audio Texture Manipulation by Exemplar-Based Analogy はコメントを受け付けていません

An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication

要約 ウェイクワード検出は、AI アシスタントがユーザーの声を聞き、効果的に対話 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, I.2.7 | An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication はコメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction はコメントを受け付けていません

How Redundant Is the Transformer Stack in Speech Representation Models?

要約 自己教師あり音声表現モデル、特にトランス アーキテクチャを活用したモデルは … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | How Redundant Is the Transformer Stack in Speech Representation Models? はコメントを受け付けていません

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores はコメントを受け付けていません