eess.AS」カテゴリーアーカイブ

Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers

要約 この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (A … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers はコメントを受け付けていません

DITTO: Diffusion Inference-Time T-Optimization for Music Generation

要約 我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | DITTO: Diffusion Inference-Time T-Optimization for Music Generation はコメントを受け付けていません

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling

要約 この論文の目標は、文字を認識した字幕を自動生成することです。 ビデオと最小 … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling はコメントを受け付けていません

Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

要約 Grapheme-to-Phoneme (G2P) は、最新の高品質 Te … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech はコメントを受け付けていません

Multilingual acoustic word embeddings for zero-resource languages

要約 この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーショ … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Multilingual acoustic word embeddings for zero-resource languages はコメントを受け付けていません

Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech Detection

要約 最近のソーシャル メディアの使用量の急増と急激な増加に伴い、ソーシャル メ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP | Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech Detection はコメントを受け付けていません

Developing an AI-based Integrated System for Bee Health Evaluation

要約 ミツバチは世界の食料供給量の約3分の1を受粉しているが、農薬や害虫などのい … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Developing an AI-based Integrated System for Bee Health Evaluation はコメントを受け付けていません

On the Audio Hallucinations in Large Audio-Video Language Models

要約 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | On the Audio Hallucinations in Large Audio-Video Language Models はコメントを受け付けていません

Towards Hierarchical Spoken Language Dysfluency Modeling

要約 音声流暢性モデリングは、言語療法と言語学習の両方のボトルネックです。 しか … 続きを読む

カテゴリー: cs.CL, eess.AS | Towards Hierarchical Spoken Language Dysfluency Modeling はコメントを受け付けていません

Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks

要約 プライバシーを保護し、法的規制を満たすために、自動音声認識 (ASR) や … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks はコメントを受け付けていません