「eess.AS」カテゴリーアーカイブ

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

投稿日: 2024年1月23日作成者: jarxiv

要約この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (A … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

投稿日: 2024年1月23日作成者: jarxiv

要約我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

投稿日: 2024年1月23日作成者: jarxiv

要約この論文の目標は、文字を認識した字幕を自動生成することです。ビデオと最小 … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

投稿日: 2024年1月22日作成者: jarxiv

要約 Grapheme-to-Phoneme (G2P) は、最新の高品質 Te … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Multilingual acoustic word embeddings for zero-resource languages

投稿日: 2024年1月22日作成者: jarxiv

要約この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーショ … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech Detection

投稿日: 2024年1月22日作成者: jarxiv

要約最近のソーシャルメディアの使用量の急増と急激な増加に伴い、ソーシャルメ … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

Developing an AI-based Integrated System for Bee Health Evaluation

投稿日: 2024年1月19日作成者: jarxiv

要約ミツバチは世界の食料供給量の約3分の1を受粉しているが、農薬や害虫などのい … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

On the Audio Hallucinations in Large Audio-Video Language Models

投稿日: 2024年1月19日作成者: jarxiv

要約大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Towards Hierarchical Spoken Language Dysfluency Modeling

投稿日: 2024年1月19日作成者: jarxiv

要約音声流暢性モデリングは、言語療法と言語学習の両方のボトルネックです。しか … 続きを読む →

カテゴリー: cs.CL, eess.AS | コメントを受け付けていません

Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks

投稿日: 2024年1月19日作成者: jarxiv

要約プライバシーを保護し、法的規制を満たすために、自動音声認識 (ASR) や … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

Multilingual acoustic word embeddings for zero-resource languages

Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech Detection

Developing an AI-based Integrated System for Bee Health Evaluation

On the Audio Hallucinations in Large Audio-Video Language Models

Towards Hierarchical Spoken Language Dysfluency Modeling

Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks

最近の投稿

最近のコメント

アーカイブ

カテゴリー