-
最近の投稿
- Lasso Gripper: A String Shooting-Retracting Mechanism for Shape-Adaptive Grasping
- TACS-Graphs: Traversability-Aware Consistent Scene Graphs for Ground Robot Indoor Localization and Mapping
- Non-Overlap-Aware Egocentric Pose Estimation for Collaborative Perception in Connected Autonomy
- Hard Contacts with Soft Gradients: Refining Differentiable Simulators for Learning and Control
- AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (39812) cs.CL (30135) cs.CV (45122) cs.HC (3045) cs.LG (44743) cs.RO (23829) cs.SY (3627) eess.IV (5166) eess.SY (3619) stat.ML (5821)
「eess.AS」カテゴリーアーカイブ
WaveletGPT: Wavelets Meet Large Language Models
要約 大規模言語モデル (LLM) は、あらゆる科学分野と専門分野に影響を与える … 続きを読む
Dialectal Coverage And Generalization in Arabic Speech Recognition
要約 豊かな方言多様性を特徴とし、音声技術においてリソースが少ない言語とみなされ … 続きを読む
DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles
要約 人間の音声は豊かで柔軟な韻律のバリエーションを示します。 合理的かつ柔軟な … 続きを読む
GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot
要約 GLM-4-Voiceを紹介します。GLM-4-Voiceは、インテリジェ … 続きを読む
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む
TTSDS — Text-to-Speech Distribution Score
要約 最近公開された Text-to-Speech (TTS) システムの多くは … 続きを読む
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
要約 音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生 … 続きを読む
End-to-End Supervised Hierarchical Graph Clustering for Speaker Diarization
要約 話者ダイアライゼーションは、話者のアイデンティティに基づいてオーディオ録音 … 続きを読む
Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning
要約 このペーパーでは、ネットワーク化された IoT スタイルのオーディオ デバ … 続きを読む
Noro: A Noise-Robust One-shot Voice Conversion System with Hidden Speaker Representation Capabilities
要約 ワンショット音声変換 (VC) は、元のソース音声の意味内容を保持しながら … 続きを読む