-
最近の投稿
- Depth-supervised NeRF: Fewer Views and Faster Training for Free
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34913) cs.LG (33010) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Replay to Remember: Continual Layer-Specific Fine-tuning for German Speech Recognition
要約 自動音声認識 (ASR) モデルは、教師なしまたは自己教師ありトレーニング … 続きを読む
Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer?
要約 ASR システムは通常、話し言葉の「標準」向けに構築されており、非標準の方 … 続きを読む
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers
要約 音声感情認識 (SER) は最近進歩しているにもかかわらず、最先端のシステ … 続きを読む
Towards spoken dialect identification of Irish
要約 アイルランド語は、方言やアクセントの多様性に富んでいます。 これは、リソー … 続きを読む
Edit Distance based RL for RNNT decoding
要約 RNN-T は、さまざまなベンチマーク テストで優れた WER を示し、シ … 続きを読む
AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023
要約 このレポートでは、2023 Epic-Kitchen EPIC-SOUND … 続きを読む
Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications
要約 テキストリソースを使用しない音声の表現学習は、多くの低リソース音声アプリケ … 続きを読む
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study
要約 このペーパーでは、書き起こしの精度を向上させるために、大規模言語モデル ( … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
Personalization for BERT-based Discriminative Speech Recognition Rescoring
要約 パーソナライズされたコンテンツの認識は、エンドツーエンドの音声認識において … 続きを読む