eess.AS」カテゴリーアーカイブ

Enhancing Whisper’s Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization

要約 自動音声認識は、最近、Whisper などの大規模な基礎モデルによって大幅 … 続きを読む

カテゴリー: cs.CL, eess.AS | Enhancing Whisper’s Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization はコメントを受け付けていません

MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

要約 自己教師あり学習 (SSL) は、視覚、テキスト、および音声の分野の大規模 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training はコメントを受け付けていません

Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling

要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む

カテゴリー: cs.RO, cs.SD, eess.AS | Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling はコメントを受け付けていません

Zero-resource Speech Translation and Recognition with LLMs

要約 音声処理の最近の進歩にも関わらず、ゼロリソース音声翻訳 (ST) と自動音 … 続きを読む

カテゴリー: cs.CL, eess.AS | Zero-resource Speech Translation and Recognition with LLMs はコメントを受け付けていません

Long-Form Speech Generation with Spoken Language Models

要約 私たちは、長文マルチメディア生成とオーディオネイティブ音声アシスタントの要 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Long-Form Speech Generation with Spoken Language Models はコメントを受け付けていません

How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System?

要約 音声テキスト同時翻訳 (SimulST) は、話者の発話と同時にソース言語 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System? はコメントを受け付けていません

Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity

要約 最近、Linformer や Mamba などのアーキテクチャが、トランス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity はコメントを受け付けていません

An Investigation on the Potential of KAN in Speech Enhancement

要約 高忠実度の音声強調には、多くの場合、複雑なマルチスケール パターンをキャプ … 続きを読む

カテゴリー: cs.AI, cs.LG, eess.AS | An Investigation on the Potential of KAN in Speech Enhancement はコメントを受け付けていません

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

要約 拡散モデルの最近の進歩により、オーディオ駆動のトーキング ヘッド合成に革命 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis はコメントを受け付けていません

RiTTA: Modeling Event Relations in Text-to-Audio Generation

要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | RiTTA: Modeling Event Relations in Text-to-Audio Generation はコメントを受け付けていません