-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
Real-Time Pitch/F0 Detection Using Spectrogram Images and Convolutional Neural Networks
要約 このペーパーでは、畳み込みニューラルネットワークと画像処理技術を通じてF0 … 続きを読む
Leveraging Label Potential for Enhanced Multimodal Emotion Recognition
要約 マルチモーダル感情認識(MER)は、感情状態を正確に予測するために、さまざ … 続きを読む
An Efficient GPU-based Implementation for Noise Robust Sound Source Localization
要約 音源定位(SSL)、音源分離(SSS)、自動音声認識(ASR)を含むロボッ … 続きを読む
RWKVTTS: Yet another TTS based on RWKV-7
要約 人間とAIのインタラクションは、直感的で効率的なインターフェイスで繁栄して … 続きを読む
Mind the Prompt: Prompting Strategies in Audio Generations for Improving Sound Classification
要約 本稿では、Text-To-Audio(TTA)モデルを用いて現実的なデータ … 続きを読む
Real-time Speech Summarization for Medical Conversations
要約 医師と患者の会話では、医療に関連する情報を特定することが重要であり、会話要 … 続きを読む
VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain
要約 プライバシーの制約から、医療分野の音声認識データセットは公開されていない。 … 続きを読む
MultiMed-ST: Large-scale Many-to-many Multilingual Medical Speech Translation
要約 医療分野における多言語音声翻訳(ST)は、言語の壁を越えた効率的なコミュニ … 続きを読む
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
要約 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
要約 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む