「eess.AS」カテゴリーアーカイブ

Efficient Speech Translation through Model Compression and Knowledge Distillation

投稿日: 2025年5月27日作成者: jarxiv

要約音声翻訳のための大規模なオーディオ言語モデルの効率的な展開は、重要な計算要 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

投稿日: 2025年5月27日作成者: jarxiv

要約オーディオ認識の大規模な言語モデル（ALLMS）は、最近、オーディオ入力を … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks

投稿日: 2025年5月27日作成者: jarxiv

要約ビデオから高品質のピアノオーディオを生成するには、視覚的な手がかりと音楽出 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

投稿日: 2025年5月27日作成者: jarxiv

要約対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining

投稿日: 2025年5月26日作成者: jarxiv

要約音楽の類似性検索は、ストリーミングプラットフォームの大規模なコレクションか … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

投稿日: 2025年5月26日作成者: jarxiv

要約対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation

投稿日: 2025年5月26日作成者: jarxiv

要約アクティブなサウンド変更のための新しいパラダイムを紹介します：アクティブな … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

投稿日: 2025年5月23日作成者: jarxiv

要約自動音声認識（ASR）の最近の進歩は、大規模な音声コーパスによって大きく促 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Slamming: Training a Speech Language Model on One GPU in a Day

投稿日: 2025年5月23日作成者: jarxiv

要約 24時間で単一のアカデミックGPUで高品質の音声言語モデル（SLM）をトレ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation

投稿日: 2025年5月23日作成者: jarxiv

要約アクティブなサウンド変更のための新しいパラダイムを紹介します：アクティブな … 続きを読む →

カテゴリー: cs.AI, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Efficient Speech Translation through Model Compression and Knowledge Distillation

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data

Towards Video to Piano Music Generation with Chain-of-Perform Support Benchmarks

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

CrossMuSim: A Cross-Modal Framework for Music Similarity Retrieval with LLM-Powered Text Description Sourcing and Mining

DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations

Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation

From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition

Slamming: Training a Speech Language Model on One GPU in a Day

Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation

最近の投稿

最近のコメント

アーカイブ

カテゴリー