「eess.AS」カテゴリーアーカイブ

Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture

投稿日: 2025年4月28日作成者: jarxiv

要約音声生成は、さまざまな調音の特徴の調整を含む複雑な連続プロセスです。その … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

投稿日: 2025年4月28日作成者: jarxiv

要約このペーパーでは、監視なしで監視されたAL方法を組み合わせた、自動音声認識 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Spatial Audio Processing with Large Language Model on Wearable Devices

投稿日: 2025年4月28日作成者: jarxiv

要約空間的コンテキストを大規模な言語モデル（LLM）に統合することは、特にウェ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Kimi-Audio Technical Report

投稿日: 2025年4月28日作成者: jarxiv

要約オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーショ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator

投稿日: 2025年4月28日作成者: jarxiv

要約最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

投稿日: 2025年4月24日作成者: jarxiv

要約オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

投稿日: 2025年4月23日作成者: jarxiv

要約音声大規模な言語モデル（LLM）は、音声処理における顕著な研究の焦点として … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Fine-tuning Whisper on Low-Resource Languages for Real-World Applications

投稿日: 2025年4月23日作成者: jarxiv

要約このペーパーでは、Swissドイツ語をケーススタディとして使用して、文レベ … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

投稿日: 2025年4月23日作成者: jarxiv

要約このホワイトペーパーでは、オーディオデータとビデオデータの両方を活用して、 … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

投稿日: 2025年4月22日作成者: jarxiv

要約大規模な言語モデル（LLMS）の急速な進歩は、自然言語処理能力を大幅に強化 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture

Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

Spatial Audio Processing with Large Language Model on Wearable Devices

Kimi-Audio Technical Report

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator

AudioX: Diffusion Transformer for Anything-to-Audio Generation

VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

Fine-tuning Whisper on Low-Resource Languages for Real-World Applications

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

MoWE-Audio: Multitask AudioLLMs with Mixture of Weak Encoders

最近の投稿

最近のコメント

アーカイブ

カテゴリー