「eess.AS」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

投稿日: 2025年2月20日作成者: jarxiv

要約感情を理解することは、人間のコミュニケーションの基本的な側面です。オーデ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | コメントを受け付けていません

DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors

投稿日: 2025年2月18日作成者: jarxiv

要約大規模な潜在的拡散モデル（LDMS）は、さまざまなモダリティのコンテンツ生 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models

投稿日: 2025年2月18日作成者: jarxiv

要約日常のデバイスにおけるマイクの増加の有病率とオンラインサービスへの依存度の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

投稿日: 2025年2月18日作成者: jarxiv

要約視覚音声認識（VSR）の最近の進歩は、唇からスピーチの合成の進歩を促進しま … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

投稿日: 2025年2月17日作成者: jarxiv

要約いくつかの最近の研究では、拡散モデルと自己回帰モデルを組み合わせることによ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

MTLM: an Innovative Language Model Training Paradigm for ASR

投稿日: 2025年2月17日作成者: jarxiv

要約大量のテキストでのトレーニング前の変圧器ベースの言語モデル（LMS）は、自 … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

投稿日: 2025年2月17日作成者: jarxiv

要約ニューラルスケーリング法則は、堅牢なシーケンス処理アーキテクチャを設計する … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | コメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

投稿日: 2025年2月13日作成者: jarxiv

要約特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss

投稿日: 2025年2月12日作成者: jarxiv

要約コンピューター支援発音トレーニング（CAPT）システムの構築における事前の … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

投稿日: 2025年2月12日作成者: jarxiv

要約 Audio-Visuual Speech Speech Septureat … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors

Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models

NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

MTLM: an Innovative Language Model Training Paradigm for ASR

OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

Towards Efficient and Multifaceted Computer-assisted Pronunciation Training Leveraging Hierarchical Selective State Space Model and Decoupled Cross-entropy Loss

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー