-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む
MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽インフォマティクス理 … 続きを読む
Speech Retrieval-Augmented Generation without Automatic Speech Recognition
要約 音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識( … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む
MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽理解タスクにおいて、 … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元のコンテンツを保持しながら、ソーススピーカーの音声をリ … 続きを読む
OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios
要約 大規模な言語モデルの急速な発展により、研究者は人間と自然に会話できる高度な … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
RiTTA: Modeling Event Relations in Text-to-Audio Generation
要約 Text-to-Audio (TTA) 生成モデルは大幅に進歩し、詳細なコ … 続きを読む