-
最近の投稿
- FlowBotHD: History-Aware Diffuser Handling Ambiguities in Articulated Objects Manipulation
- A Novel Twisted-Winching String Actuator for Robotic Applications: Design and Validation
- Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration
- Design Space Exploration of Embedded SoC Architectures for Real-Time Optimal Control
-
最近のコメント
表示できるコメントはありません。 cs.AI (28198) cs.CL (21301) cs.CR (2201) cs.CV (34856) cs.LG (32941) cs.RO (16224) cs.SY (2500) eess.IV (4250) eess.SY (2494) stat.ML (4412)
「cs.SD」カテゴリーアーカイブ
Towards spoken dialect identification of Irish
要約 アイルランド語は、方言やアクセントの多様性に富んでいます。 これは、リソー … 続きを読む
Edit Distance based RL for RNNT decoding
要約 RNN-T は、さまざまなベンチマーク テストで優れた WER を示し、シ … 続きを読む
AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023
要約 このレポートでは、2023 Epic-Kitchen EPIC-SOUND … 続きを読む
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study
要約 このペーパーでは、書き起こしの精度を向上させるために、大規模言語モデル ( … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む
KIT’s Multilingual Speech Translation System for IWSLT 2023
要約 既存の音声翻訳ベンチマークの多くは、高品質の録音条件でのネイティブ英語の音 … 続きを読む
SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation
要約 ラベル付きの第 2 言語 (L2) 音声データの欠如は、発音間違い検出モデ … 続きを読む
Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network
要約 コンテキスト情報は音声認識技術において重要な役割を果たしており、それをエン … 続きを読む
MARBLE: Music Audio Representation Benchmark for Universal Evaluation
要約 画像生成やフィクションの共同制作など、アートと人工知能 (AI) が広範に … 続きを読む
VampNet: Music Generation via Masked Acoustic Token Modeling
要約 音楽の合成、圧縮、修復、バリエーションに対するマスクされた音響トークン モ … 続きを読む