「eess.AS」カテゴリーアーカイブ

I Know You’re Listening: Adaptive Voice for HRI

投稿日: 2025年6月19日作成者: jarxiv

要約言語教育のためのソーシャルロボットの使用が調査されていますが、言語教育ロボ … 続きを読む →

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models

投稿日: 2025年6月19日作成者: jarxiv

要約テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、 … 続きを読む →

カテゴリー: cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Factorized RVQ-GAN For Disentangled Speech Tokenization

投稿日: 2025年6月19日作成者: jarxiv

要約単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

投稿日: 2025年6月19日作成者: jarxiv

要約大規模な言語モデル（LLMS）は、通常、テキストツーチック（TTS）システ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

The Perception of Phase Intercept Distortion and its Application in Data Augmentation

投稿日: 2025年6月18日作成者: jarxiv

要約位相の歪みとは、信号内の周波数間の位相関係の変化を指します。これは知覚可能 … 続きを読む →

カテゴリー: cs.LG, eess.AS, eess.SP | コメントを受け付けていません

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

投稿日: 2025年6月18日作成者: jarxiv

要約テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR

投稿日: 2025年6月17日作成者: jarxiv

要約このペーパーでは、言語固有の双方向コンテキストの統合をスピーチ大言語モデル … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems

投稿日: 2025年6月17日作成者: jarxiv

要約このペーパーでは、MLC-SLM Challenge 2025のシステムを … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

投稿日: 2025年6月17日作成者: jarxiv

要約非標識データセットのみでASRパフォーマンスを強化する自己強化フレームワー … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

On the Feasibility of Fully AI-automated Vishing Attacks

投稿日: 2025年6月17日作成者: jarxiv

要約 Vishing Attackは、攻撃者が電話を使用して個人を欺くために電話 … 続きを読む →

カテゴリー: cs.AI, cs.CR, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

I Know You’re Listening: Adaptive Voice for HRI

Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models

Factorized RVQ-GAN For Disentangled Speech Tokenization

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

The Perception of Phase Intercept Distortion and its Application in Data Augmentation

A Variational Framework for Improving Naturalness in Generative Spoken Language Models

Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR

Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

On the Feasibility of Fully AI-automated Vishing Attacks

最近の投稿

最近のコメント

アーカイブ

カテゴリー