-
最近の投稿
- Power-Law Decay Loss for Large Language Model Finetuning: Focusing on Information Sparsity to Enhance Generation Quality
- LaViDa: A Large Diffusion Language Model for Multimodal Understanding
- Manipulating Elasto-Plastic Objects With 3D Occupancy and Learning-Based Predictive Control
- SPAR: Self-supervised Placement-Aware Representation Learning for Multi-Node IoT Systems
- FoMoH: A clinically meaningful foundation model evaluation for structured electronic health records
-
最近のコメント
表示できるコメントはありません。 cs.AI (38548) cs.CL (29131) cs.CV (44033) cs.HC (2938) cs.LG (43461) cs.RO (22974) cs.SY (3516) eess.IV (5086) eess.SY (3508) stat.ML (5650)
「cs.SD」カテゴリーアーカイブ
SSPS: Self-Supervised Positive Sampling for Robust Self-Supervised Speaker Verification
要約 自己学習学習(SSL)は、スピーカー検証(SV)のかなりの進歩をもたらしま … 続きを読む
SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information
要約 大規模なオーディオ言語モデル(LALMS)は、スピーチ、オーディオなどのマ … 続きを読む
Machine Learning Approaches to Vocal Register Classification in Contemporary Male Pop Music
要約 すべての経験レベルの歌手にとって、技術的なレパートリーを学ぶ際の最も困難な … 続きを読む
Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese
要約 大規模な言語モデル(LLMS)の最近の進歩により、テキストからスピーチ(T … 続きを読む
LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors
要約 最近、大規模な事前訓練を受けた音声エンコーダと大規模な言語モデル(LLM) … 続きを読む
ImprovNet — Generating Controllable Musical Improvisations with Iterative Corruption Refinement
要約 Deep Learningがさまざまなドメインにまたがるスタイル転送におけ … 続きを読む
On the Role of Speech Data in Reducing Toxicity Detection Bias
要約 テキスト毒性検出システムは、人口統計グループに言及しているサンプルに不均衡 … 続きを読む
Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization
要約 犬の樹皮を聞いて、駐車した車を見るためだけに音に向かって曲がると想像してく … 続きを読む
Learning Nonlinear Dynamics in Physical Modelling Synthesis using Neural Ordinary Differential Equations
要約 モーダル合成方法は、分散された音楽システムをモデル化するための長年のアプロ … 続きを読む
カテゴリー: cs.LG, cs.SD, eess.AS, physics.comp-ph
コメントする