-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks
要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む
FlanEC: Exploring Flan-T5 for Post-ASR Error Correction
要約 この論文では、自動音声認識 (ASR) 後の生成音声誤り訂正 (GenSE … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
Audio Texture Manipulation by Exemplar-Based Analogy
要約 オーディオ テクスチャの操作には、聴覚要素の追加、削除、置換などの特定の変 … 続きを読む
An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication
要約 ウェイクワード検出は、AI アシスタントがユーザーの声を聞き、効果的に対話 … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む
How Redundant Is the Transformer Stack in Speech Representation Models?
要約 自己教師あり音声表現モデル、特にトランス アーキテクチャを活用したモデルは … 続きを読む
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む
Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments
要約 オーディオ信号処理における深層強化学習 (DRL) アプローチは近年大幅な … 続きを読む