-
最近の投稿
- Adaptive Discretization against an Adversary: Lipschitz bandits, Dynamic Pricing, and Auction Tuning
- Cybernetic Marionette: Channeling Collective Agency Through a Wearable Robot in a Live Dancer-Robot Duet
- Leveraging LLMs for Mission Planning in Precision Agriculture
- Estimating the Joint Probability of Scenario Parameters with Gaussian Mixture Copula Models
- One For All: LLM-based Heterogeneous Mission Planning in Precision Agriculture
-
最近のコメント
表示できるコメントはありません。 cs.AI (39605) cs.CL (29980) cs.CV (44945) cs.HC (3015) cs.LG (44542) cs.RO (23689) cs.SY (3609) eess.IV (5149) eess.SY (3601) stat.ML (5788)
「cs.SD」カテゴリーアーカイブ
Survey on the Evaluation of Generative Models in Music
要約 音楽における生成システムに関する研究は、近年かなりの注目と成長を遂げていま … 続きを読む
AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models
要約 大規模なオーディオ言語モデル(LALMS)の内部メカニズムを理解することは … 続きを読む
Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems
要約 自動スピーキング評価のための逐語的転写は、エラー分析やフィードバックなどの … 続きを読む
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions
要約 意見表現に関する自動スピーキング評価(ASA)は、ラベル付きの録音の希少性 … 続きを読む
UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation
要約 手がかりのスピーチ(CS)は、ハンドコーディングを通じてリップリーディング … 続きを読む
Sounding that Object: Interactive Object-Aware Image to Audio Generation
要約 複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特 … 続きを読む
Improving Multilingual Speech Models on ML-SUPERB 2.0: Fine-tuning with Data Augmentation and LID-Aware CTC
要約 教師ありまたは教師ありで事前に学習された音声基礎モデル(SFM)を用いた多 … 続きを読む
TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models
要約 本論文では、TalkingMachinesを紹介する。TalkingMac … 続きを読む
Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
要約 自閉症スペクトラム障害(ASD)は、社会的コミュニケーション、反復行動、お … 続きを読む
SpeechT: Findings of the First Mentorship in Speech Translation
要約 この作品は、2024年12月と2025年1月に開催されたスピーチ翻訳の最初 … 続きを読む