-
最近の投稿
- Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
- Recursive Decomposition with Dependencies for Generic Divide-and-Conquer Reasoning
- Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering
- A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
- RoboPanoptes: The All-seeing Robot with Whole-body Dexterity
-
最近のコメント
表示できるコメントはありません。 cs.AI (37618) cs.CL (28441) cs.CV (43250) cs.HC (2877) cs.LG (42544) cs.RO (22329) cs.SY (3427) eess.IV (5024) eess.SY (3419) stat.ML (5549)
「eess.AS」カテゴリーアーカイブ
RNN-Transducer-based Losses for Speech Recognition on Noisy Targets
要約 騒々しい転写産物に関するトレーニング音声認識システムは、データセットが膨大 … 続きを読む
Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks
要約 このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0 … 続きを読む
Leveraging Label Potential for Enhanced Multimodal Emotion Recognition
要約 マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざ … 続きを読む
An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
要約 音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボッ … 続きを読む
RWKVTTS: Yet another TTS based on RWKV-7
要約 人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄して … 続きを読む
Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
要約 本稿では、Text-To-Audio(TTA)モデルを用いて現実的なデータ … 続きを読む
Real-time Speech Summarization for Medical Conversations
要約 医師と患者の会話では、医療に関連する情報を特定することが重要であり、会話要 … 続きを読む
VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain
要約 プライバシーの制約から、医療分野の音声認識データセットは公開されていない。 … 続きを読む
MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation
要約 医療分野における多言語音声翻訳(ST)は、言語の壁を越えた効率的なコミュニ … 続きを読む
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
要約 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む