eess.AS」カテゴリーアーカイブ

I Know You’re Listening: Adaptive Voice for HRI

要約 言語教育のためのソーシャルロボットの使用が調査されていますが、言語教育ロボ … 続きを読む

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | I Know You’re Listening: Adaptive Voice for HRI はコメントを受け付けていません

Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models

要約 テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、 … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models はコメントを受け付けていません

Factorized RVQ-GAN For Disentangled Speech Tokenization

要約 単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考 … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Factorized RVQ-GAN For Disentangled Speech Tokenization はコメントを受け付けていません

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

要約 大規模な言語モデル(LLMS)は、通常、テキストツーチック(TTS)システ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction はコメントを受け付けていません

The Perception of Phase Intercept Distortion and its Application in Data Augmentation

要約 位相の歪みとは、信号内の周波数間の位相関係の変化を指します。これは知覚可能 … 続きを読む

カテゴリー: cs.LG, eess.AS, eess.SP | The Perception of Phase Intercept Distortion and its Application in Data Augmentation はコメントを受け付けていません

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

要約 テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | A Variational Framework for Improving Naturalness in Generative Spoken Language Models はコメントを受け付けていません

Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR

要約 このペーパーでは、言語固有の双方向コンテキストの統合をスピーチ大言語モデル … 続きを読む

カテゴリー: cs.CL, eess.AS | Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR はコメントを受け付けていません

Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems

要約 このペーパーでは、MLC-SLM Challenge 2025のシステムを … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems はコメントを受け付けていません

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

要約 非標識データセットのみでASRパフォーマンスを強化する自己強化フレームワー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data はコメントを受け付けていません

On the Feasibility of Fully AI-automated Vishing Attacks

要約 Vishing Attackは、攻撃者が電話を使用して個人を欺くために電話 … 続きを読む

カテゴリー: cs.AI, cs.CR, eess.AS | On the Feasibility of Fully AI-automated Vishing Attacks はコメントを受け付けていません