-
最近の投稿
- Embodied Intelligent Industrial Robotics: Concepts and Techniques
- VGC-RIO: A Tightly Integrated Radar-Inertial Odometry with Spatial Weighted Doppler Velocity and Local Geometric Constrained RCS Histograms
- Decentralized Nonlinear Model Predictive Control-Based Flock Navigation with Real-Time Obstacle Avoidance in Unknown Obstructed Environments
- SafePath: Conformal Prediction for Safe LLM-Based Autonomous Navigation
- Behind Maya: Building a Multilingual Vision Language Model
-
最近のコメント
表示できるコメントはありません。 cs.AI (38112) cs.CL (28800) cs.CV (43687) cs.HC (2911) cs.LG (43035) cs.RO (22676) cs.SY (3481) eess.IV (5065) eess.SY (3473) stat.ML (5605)
「cs.SD」カテゴリーアーカイブ
Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
要約 大規模言語モデル (LLM) の急速な発展により、膨大なインテリジェントな … 続きを読む
mHuBERT-147: A Compact Multilingual HuBERT Model
要約 我々は、90,000 時間のクリーンなオープンライセンス データでトレーニ … 続きを読む
HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset
要約 この寄稿では、イメージ ソース メソッドを使用して作成された 7 次アンビ … 続きを読む
Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN
要約 この論文では、診療所で低コストのシステムを使用して、心臓の異常を高精度かつ … 続きを読む
Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM
要約 テキスト読み上げ (TTS) モデルは、テキストのみのコーパスを使用して自 … 続きを読む
Predicting User Intents and Musical Attributes from Music Discovery Conversations
要約 意図分類は、入力テキスト クエリからユーザーのニーズを特定するテキスト理解 … 続きを読む
CAFE A Novel Code switching Dataset for Algerian Dialect French and English
要約 この論文では、アルジェリアの方言、フランス語、および英語の間の最初のコード … 続きを読む
Comparative Analysis of Audio Feature Extraction for Real-Time Talking Portrait Synthesis
要約 このペーパーでは、リアルタイム アプリケーションで遅延が発生し、応答性が制 … 続きを読む
Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks
要約 構文の計算モデルは主にテキストベースです。 ここで私たちは、構文の進化にお … 続きを読む