-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Can We Trust Explainable AI Methods on ASR? An Evaluation on Phoneme Recognition
要約 Explainable AI (XAI) 技術は、画像分類や自然言語処理な … 続きを読む
Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target
要約 音声言語理解 (SLU) は、話された発話から意味論的な情報を抽出すること … 続きを読む
InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition
要約 ローカル機能とグローバル機能はどちらも自動音声認識 (ASR) に不可欠で … 続きを読む
ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation
要約 広く話されていない言語や、トレーニング データで十分に表現されていないアク … 続きを読む
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model
要約 最近の大規模言語モデル (LLM) の巨大なスケールにより、命令ベースおよ … 続きを読む
HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition
要約 最先端の ASR システムは、ローカルとグローバルの相互作用を個別にモデル … 続きを読む
CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice
要約 自動音声認識 (ASR) の最近の進歩にもかかわらず、アクセントのある音声 … 続きを読む
Leveraging characteristics of the output probability distribution for identifying adversarial audio examples
要約 敵対的攻撃は、機械学習ベースの自動音声認識 (ASR) システムに対するセ … 続きを読む
DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction
要約 会話の音声は多くの場合、音声計画からの逸脱で構成され、流暢な発話を生成し、 … 続きを読む
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units
要約 すべてのコンポーネントを共同で最適化できる直接音声音声変換 (S2ST) … 続きを読む