-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Towards dialect-inclusive recognition in a low-resource language: are balanced corpora the answer?
要約 ASR システムは通常、話し言葉の「標準」向けに構築されており、非標準の方 … 続きを読む
Cross-Language Speech Emotion Recognition Using Multimodal Dual Attention Transformers
要約 音声感情認識 (SER) は最近進歩しているにもかかわらず、最先端のシステ … 続きを読む
Towards spoken dialect identification of Irish
要約 アイルランド語は、方言やアクセントの多様性に富んでいます。 これは、リソー … 続きを読む
Edit Distance based RL for RNNT decoding
要約 RNN-T は、さまざまなベンチマーク テストで優れた WER を示し、シ … 続きを読む
AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023
要約 このレポートでは、2023 Epic-Kitchen EPIC-SOUND … 続きを読む
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study
要約 このペーパーでは、書き起こしの精度を向上させるために、大規模言語モデル ( … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
KIT’s Multilingual Speech Translation System for IWSLT 2023
要約 既存の音声翻訳ベンチマークの多くは、高品質の録音条件でのネイティブ英語の音 … 続きを読む
SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation
要約 ラベル付きの第 2 言語 (L2) 音声データの欠如は、発音間違い検出モデ … 続きを読む
Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network
要約 コンテキスト情報は音声認識技術において重要な役割を果たしており、それをエン … 続きを読む