eess.AS」カテゴリーアーカイブ

Multiple output samples for each input in a single-output Gaussian process

要約 標準のガウス プロセス (GP) では、トレーニング セット内の入力ごとに … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Multiple output samples for each input in a single-output Gaussian process はコメントを受け付けていません

Pre-training for Speech Translation: CTC Meets Optimal Transport

要約 音声とテキストのモダリティ間のギャップは、音声からテキストへの翻訳 (ST … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Pre-training for Speech Translation: CTC Meets Optimal Transport はコメントを受け付けていません

N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition

要約 最近開発された多言語の弱教師モデルである Whisper は、単言語設定と … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition はコメントを受け付けていません

PolyVoice: Language Models for Speech to Speech Translation

要約 私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワー … 続きを読む

カテゴリー: cs.CL, eess.AS | PolyVoice: Language Models for Speech to Speech Translation はコメントを受け付けていません

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

要約 Video-LLaMAは、Large Language Models(LL … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SD, eess.AS | Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding はコメントを受け付けていません

Task-Agnostic Structured Pruning of Speech Representation Models

要約 Wav2vec2、Hubert、WavLMなどの自己教師付き事前学習モデル … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | Task-Agnostic Structured Pruning of Speech Representation Models はコメントを受け付けていません

Towards Robust FastSpeech 2 by Modelling Residual Multimodality

要約 FastSpeech 2をベースとした最新の非自己回帰的音声合成モデルによ … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | Towards Robust FastSpeech 2 by Modelling Residual Multimodality はコメントを受け付けていません

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

要約 音声表現を学習するための自己教師技術は、人間のラベルを必要とせず、音声に触 … 続きを読む

カテゴリー: cs.CL, eess.AS, stat.ML | BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models はコメントを受け付けていません

End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders

要約 音声言語理解(SLU)では、テキスト情報がないため、音声信号から直接意味を … 続きを読む

カテゴリー: cs.CL, cs.SD, eess.AS | End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders はコメントを受け付けていません

Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition

要約 話者識別システムは、トレーニングやテストが行​​われる実験室の条件とは異な … 続きを読む

カテゴリー: cs.LG, cs.SD, eess.AS | Speaker-specific Thresholding for Robust Imposter Identification in Unseen Speaker Recognition はコメントを受け付けていません