-
最近の投稿
- Cybernetic Marionette: Channeling Collective Agency Through a Wearable Robot in a Live Dancer-Robot Duet
- Leveraging LLMs for Mission Planning in Precision Agriculture
- Estimating the Joint Probability of Scenario Parameters with Gaussian Mixture Copula Models
- One For All: LLM-based Heterogeneous Mission Planning in Precision Agriculture
- Provable Sim-to-Real Transfer via Offline Domain Randomization
-
最近のコメント
表示できるコメントはありません。 cs.AI (39605) cs.CL (29980) cs.CV (44945) cs.HC (3015) cs.LG (44541) cs.RO (23689) cs.SY (3609) eess.IV (5149) eess.SY (3601) stat.ML (5787)
「cs.SD」カテゴリーアーカイブ
UmbraTTS: Adapting Text-to-Speech to Environmental Contexts with Flow Matching
要約 テキストからスピーチ(TTS)の最近の進歩により、非常に自然な音声統合が可 … 続きを読む
Regularizing Learnable Feature Extraction for Automatic Speech Recognition
要約 ニューラルフロントエンドは、音響モデルに適合するように直接訓練できるため、 … 続きを読む
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
要約 豊富なマルチモーダル条件を備えたエンドツーエンドの人間のアニメーション、例 … 続きを読む
Teaching Physical Awareness to LLMs through Sounds
要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む
Teaching Physical Awareness to LLMs through Sounds
要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model
要約 大規模なオーディオ言語モデル(LALMS)は、インテリジェントなヒューマン … 続きを読む
Label-Context-Dependent Internal Language Model Estimation for CTC
要約 コネクショニストの時間分類(CTC)には、ラベルコンテキストの独立性の仮定 … 続きを読む
Efficient and Direct Duplex Modeling for Speech-to-Speech Language Model
要約 話し言葉の対話は、人間のコンピューターの相互作用の直感的な形式ですが、現在 … 続きを読む
Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation
要約 生成モデルを開発して、象徴的な音楽を作成または条件付けて作成することは、デ … 続きを読む