-
最近の投稿
- MetaGPT: Meta Programming for A Multi-Agent Collaborative Framework
- SLLEN: Semantic-aware Low-light Image Enhancement Network
- TuneTables: Context Optimization for Scalable Prior-Data Fitted Networks
- Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning
- Joint Sensing and Semantic Communications with Multi-Task Deep Learning
-
最近のコメント
表示できるコメントはありません。 cs.AI (28403) cs.CL (21462) cs.CR (2219) cs.CV (35034) cs.LG (33149) cs.RO (16370) cs.SY (2518) eess.IV (4266) eess.SY (2512) stat.ML (4445)
「eess.AS」カテゴリーアーカイブ
Multiple output samples for each input in a single-output Gaussian process
要約 標準のガウス プロセス (GP) では、トレーニング セット内の入力ごとに … 続きを読む
Pre-training for Speech Translation: CTC Meets Optimal Transport
要約 音声とテキストのモダリティ間のギャップは、音声からテキストへの翻訳 (ST … 続きを読む
N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition
要約 最近開発された多言語の弱教師モデルである Whisper は、単言語設定と … 続きを読む
PolyVoice: Language Models for Speech to Speech Translation
要約 私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワー … 続きを読む
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
要約 Video-LLaMAは、Large Language Models(LL … 続きを読む
Task-Agnostic Structured Pruning of Speech Representation Models
要約 Wav2vec2、Hubert、WavLMなどの自己教師付き事前学習モデル … 続きを読む
Towards Robust FastSpeech 2 by Modelling Residual Multimodality
要約 FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルによ … 続きを読む
BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models
要約 音声表現を学習するための自己教師技術は、人間のラベルを必要とせず、音声に触 … 続きを読む
End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders
要約 音声言語理解(SLU)では、テキスト情報がないため、音声信号から直接意味を … 続きを読む
Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition
要約 話者識別システムは、トレーニングやテストが行われる実験室の条件とは異な … 続きを読む