-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Connecting Speech Encoder and Large Language Model for ASR
要約 大規模言語モデル (LLM) の優れた機能と多用途性により、自動音声認識 … 続きを読む
Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition
要約 方言に対する効果的な自動音声認識 (ASR) ソリューションを作成するには … 続きを読む
Analysis and Detection of Pathological Voice using Glottal Source Features
要約 音声の病状を自動検出することで、客観的な評価と早期の診断介入が可能になりま … 続きを読む
MASR: Multi-label Aware Speech Representation
要約 近年、音声表現学習は主に自己教師あり学習 (SSL) タスクとして構築され … 続きを読む
Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech
要約 音響音声信号から直接、構音障害を自動検出および重症度レベル分類することは、 … 続きを読む
On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers
要約 内部言語モデル (ILM) の減算は、音声認識用の外部言語モデル (LM) … 続きを読む
Towards General-Purpose Text-Instruction-Guided Voice Conversion
要約 この論文では、「深いトーンでゆっくり発音する」または「元気な少年のような声 … 続きを読む
SCANet: A Self- and Cross-Attention Network for Audio-Visual Speech Separation
要約 音声情報や視覚情報などのさまざまなモダリティの統合は、周囲環境に対する人間 … 続きを読む
Contextual Biasing of Named-Entities with Large Language Models
要約 この論文では、大規模言語モデル (LLM) を使用したコンテキスト バイア … 続きを読む
Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models
要約 自己教師あり表現学習 (SSRL) により、教師ありモデルと比較して、下流 … 続きを読む