-
最近の投稿
- MCRL4OR: Multimodal Contrastive Representation Learning for Off-Road Environmental Perception
- CSAOT: Cooperative Multi-Agent System for Active Object Tracking
- Integrating Persian Lip Reading in Surena-V Humanoid Robot for Human-Robot Interaction
- The Perceived Danger (PD) Scale: Development and Validation
- Design and Implementation of an Efficient Onboard Computer System for CanSat Atmosphere Monitoring
-
最近のコメント
表示できるコメントはありません。 cs.AI (32726) cs.CL (24738) cs.CR (2529) cs.CV (38903) cs.LG (37605) cs.RO (19038) cs.SY (2911) eess.IV (4662) eess.SY (2905) stat.ML (4954)
「cs.SD」カテゴリーアーカイブ
Predicting User Intents and Musical Attributes from Music Discovery Conversations
要約 意図分類は、入力テキスト クエリからユーザーのニーズを特定するテキスト理解 … 続きを読む
CAFE A Novel Code switching Dataset for Algerian Dialect French and English
要約 この論文では、アルジェリアの方言、フランス語、および英語の間の最初のコード … 続きを読む
Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
要約 このペーパーでは、リアルタイム アプリケーションで遅延が発生し、応答性が制 … 続きを読む
Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks
要約 構文の計算モデルは主にテキストベースです。 ここで私たちは、構文の進化にお … 続きを読む
Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation
要約 TTS モデルは急速に進歩していますが、一貫した堅牢な人間による評価フレー … 続きを読む
DARNet: Dual Attention Refinement Network with Spatiotemporal Construction for Auditory Attention Detection
要約 カクテルパーティーでは、人間は注意を向ける驚くべき能力を発揮します。 聴覚 … 続きを読む
REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR
要約 教師なし自動音声認識 (ASR) は、音声とテキストのペアのデータを監視せ … 続きを読む
Local deployment of large-scale music AI models on commodity hardware
要約 私たちは、汎用ハードウェア上でローカルに大規模な生成 AI モデルを使用し … 続きを読む
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition
要約 エッジまたはモノのインターネット (IoT) デバイスでの機械学習モデルの … 続きを読む
A Comparative Study of Discrete Speech Tokens for Semantic-Related Tasks with Large Language Models
要約 Speech Large Language Model (Speech L … 続きを読む