-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
I Know You’re Listening: Adaptive Voice for HRI
要約 言語教育のためのソーシャルロボットの使用が調査されていますが、言語教育ロボ … 続きを読む
Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models
要約 テキストから音楽の生成モデルのブレークスルーは、創造的な状況を変えており、 … 続きを読む
Factorized RVQ-GAN For Disentangled Speech Tokenization
要約 単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考 … 続きを読む
PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction
要約 大規模な言語モデル(LLMS)は、通常、テキストツーチック(TTS)システ … 続きを読む
The Perception of Phase Intercept Distortion and its Application in Data Augmentation
要約 位相の歪みとは、信号内の周波数間の位相関係の変化を指します。これは知覚可能 … 続きを読む
A Variational Framework for Improving Naturalness in Generative Spoken Language Models
要約 テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応 … 続きを読む
Bi-directional Context-Enhanced Speech Large Language Models for Multilingual Conversational ASR
要約 このペーパーでは、言語固有の双方向コンテキストの統合をスピーチ大言語モデル … 続きを読む
Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems
要約 このペーパーでは、MLC-SLM Challenge 2025のシステムを … 続きを読む
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data
要約 非標識データセットのみでASRパフォーマンスを強化する自己強化フレームワー … 続きを読む
On the Feasibility of Fully AI-automated Vishing Attacks
要約 Vishing Attackは、攻撃者が電話を使用して個人を欺くために電話 … 続きを読む