-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Keep Decoding Parallel with Effective Knowledge Distillation from Language Models to End-to-end Speech Recognisers
要約 この研究では、中間層を使用した BERT 教師モデルから自動音声認識 (A … 続きを読む
DITTO: Diffusion Inference-Time T-Optimization for Music Generation
要約 我々は、初期ノイズ潜在を最適化することで推論時間に事前トレーニングされたテ … 続きを読む
Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling
要約 この論文の目標は、文字を認識した字幕を自動生成することです。 ビデオと最小 … 続きを読む
Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech
要約 Grapheme-to-Phoneme (G2P) は、最新の高品質 Te … 続きを読む
Multilingual acoustic word embeddings for zero-resource languages
要約 この研究は、ラベル付きデータのないゼロリソース言語向けの音声アプリケーショ … 続きを読む
Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech Detection
要約 最近のソーシャル メディアの使用量の急増と急激な増加に伴い、ソーシャル メ … 続きを読む
Developing an AI-based Integrated System for Bee Health Evaluation
要約 ミツバチは世界の食料供給量の約3分の1を受粉しているが、農薬や害虫などのい … 続きを読む
On the Audio Hallucinations in Large Audio-Video Language Models
要約 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成 … 続きを読む
Towards Hierarchical Spoken Language Dysfluency Modeling
要約 音声流暢性モデリングは、言語療法と言語学習の両方のボトルネックです。 しか … 続きを読む
Communication-Efficient Personalized Federated Learning for Speech-to-Text Tasks
要約 プライバシーを保護し、法的規制を満たすために、自動音声認識 (ASR) や … 続きを読む