-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.SD」カテゴリーアーカイブ
An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication
要約 ウェイクワード検出は、AI アシスタントがユーザーの声を聞き、効果的に対話 … 続きを読む
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む
How Redundant Is the Transformer Stack in Speech Representation Models?
要約 自己教師あり音声表現モデル、特にトランス アーキテクチャを活用したモデルは … 続きを読む
Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む
Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments
要約 オーディオ信号処理における深層強化学習 (DRL) アプローチは近年大幅な … 続きを読む
MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI
要約 以前のリアルタイム MRI (rtMRI) ベースの音声合成モデルは、ノイ … 続きを読む
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR
要約 自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォー … 続きを読む
SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
要約 音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情 … 続きを読む