-
最近の投稿
- A Data-Driven Modeling and Motion Control of Heavy-Load Hydraulic Manipulators via Reversible Transformation
- Data-Driven Multi-step Nonlinear Model Predictive Control for Industrial Heavy Load Hydraulic Robot
- Image Compression Using Novel View Synthesis Priors
- OTO Planner: An Efficient Only Travelling Once Exploration Planner for Complex and Unknown Environments
- t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving
-
最近のコメント
表示できるコメントはありません。 cs.AI (29990) cs.CL (22653) cs.CR (2325) cs.CV (36362) cs.LG (34812) cs.RO (17416) cs.SY (2673) eess.IV (4425) eess.SY (2667) stat.ML (4642)
「eess.AS」カテゴリーアーカイブ
Cross-lingual Speech Emotion Recognition: Humans vs. Self-Supervised Models
要約 音声感情認識 (SER) に自己教師あり学習 (SSL) モデルを利用する … 続きを読む
Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition
要約 この文書では、低リソース言語を多言語自動音声認識 (ASR) システムに統 … 続きを読む
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む
Using LLM for Real-Time Transcription and Summarization of Doctor-Patient Interactions into ePuskesmas in Indonesia
要約 プスケスマスの非効率性に寄与する主な問題の 1 つは、医師と患者のやり取り … 続きを読む
The Effect of Perceptual Metrics on Music Representation Learning for Genre Classification
要約 自然信号の主観的な品質は、客観的な知覚指標で近似できます。 人間の観察者の … 続きを読む
Evaluation of state-of-the-art ASR Models in Child-Adult Interactions
要約 臨床現場で子供と大人の会話を確実に書き起こす能力は、自閉症スペクトラム障害 … 続きを読む
VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka
要約 この文書では、台湾で話されている非常にリソースが不足している言語である台湾 … 続きを読む
A Modular-based Strategy for Mitigating Gradient Conflicts in Simultaneous Speech Translation
要約 同時音声翻訳 (SimulST) では、ストリーミング音声入力を継続的に処 … 続きを読む
StyleSinger 2: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control
要約 スタイルトランスファーとスタイルコントロールを備えたゼロショット歌声合成( … 続きを読む