-
最近の投稿
- Online Adaptation of Terrain-Aware Dynamics for Planning in Unstructured Environments
- ‘Don’t Do That!’: Guiding Embodied Systems through Large Language Model-based Constraint Generation
- SGN-CIRL: Scene Graph-based Navigation with Curriculum, Imitation, and Reinforcement Learning
- Olfactory Inertial Odometry: Sensor Calibration and Drift Compensation
- Chronoamperometry with Room-Temperature Ionic Liquids: Sub-Second Inference Techniques
-
最近のコメント
表示できるコメントはありません。 cs.AI (39257) cs.CL (29715) cs.CV (44646) cs.HC (2989) cs.LG (44171) cs.RO (23444) cs.SY (3577) eess.IV (5131) eess.SY (3569) stat.ML (5743)
「eess.AS」カテゴリーアーカイブ
Taming Data and Transformers for Scalable Audio Generation
要約 アンビエントサウンドジェネレーターのスケーラビリティは、データ不足、キャプ … 続きを読む
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
要約 大規模な言語モデル(LLM)は、テキストベースの自然言語処理タスクに優れて … 続きを読む
RNN-Transducer-based Losses for Speech Recognition on Noisy Targets
要約 騒々しい転写産物に関するトレーニング音声認識システムは、データセットが膨大 … 続きを読む
Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks
要約 このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0 … 続きを読む
Leveraging Label Potential for Enhanced Multimodal Emotion Recognition
要約 マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざ … 続きを読む
An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
要約 音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボッ … 続きを読む
RWKVTTS: Yet another TTS based on RWKV-7
要約 人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄して … 続きを読む
Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
要約 本稿では、Text-To-Audio(TTA)モデルを用いて現実的なデータ … 続きを読む
Real-time Speech Summarization for Medical Conversations
要約 医師と患者の会話では、医療に関連する情報を特定することが重要であり、会話要 … 続きを読む
VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain
要約 プライバシーの制約から、医療分野の音声認識データセットは公開されていない。 … 続きを読む