eess.AS」カテゴリーアーカイブ

How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System?

要約 音声テキスト同時翻訳 (SimulST) は、話者の発話と同時にソース言語 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | How ‘Real’ is Your Real-Time Simultaneous Speech-to-Text Translation System? はコメントを受け付けていません

Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity

要約 最近、Linformer や Mamba などのアーキテクチャが、トランス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity はコメントを受け付けていません

An Investigation on the Potential of KAN in Speech Enhancement

要約 高忠実度の音声強調には、多くの場合、複雑なマルチスケール パターンをキャプ … 続きを読む

カテゴリー: cs.AI, cs.LG, eess.AS | An Investigation on the Potential of KAN in Speech Enhancement はコメントを受け付けていません

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

要約 拡散モデルの最近の進歩により、オーディオ駆動のトーキング ヘッド合成に革命 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis はコメントを受け付けていません

RiTTA: Modeling Event Relations in Text-to-Audio Generation

要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | RiTTA: Modeling Event Relations in Text-to-Audio Generation はコメントを受け付けていません

Fine-tuning Whisper on Low-Resource Languages for Real-World Applications

要約 この論文では、スイスドイツ語をケーススタディとして使用し、文レベルのデータ … 続きを読む

カテゴリー: cs.CL, eess.AS | Fine-tuning Whisper on Low-Resource Languages for Real-World Applications はコメントを受け付けていません

Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling

要約 会話アシスタントは、現実世界のさまざまなアプリケーションでますます普及して … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling はコメントを受け付けていません

ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis

要約 韻律には、単語の文字通りの意味を超えた豊富な情報が含まれており、音声の明瞭 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis はコメントを受け付けていません

Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls

要約 サウンド デザイナーやフォーリー アーティストは通常​​、ビデオ内の関心の … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls はコメントを受け付けていません

GIRAFE: Glottal Imaging Dataset for Advanced Segmentation, Analysis, and Facilitative Playbacks Evaluation

要約 声帯の高速ビデオ内視鏡​​シーケンスから抽出された促進的再生の開発の進歩は … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS | GIRAFE: Glottal Imaging Dataset for Advanced Segmentation, Analysis, and Facilitative Playbacks Evaluation はコメントを受け付けていません