-
最近の投稿
- Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
- Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models
- In-Context Meta LoRA Generation
- Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models
- An Efficient Numerical Function Optimization Framework for Constrained Nonlinear Robotic Problems
-
最近のコメント
表示できるコメントはありません。 cs.AI (32932) cs.CL (24897) cs.CR (2547) cs.CV (39077) cs.LG (37834) cs.RO (19152) cs.SY (2930) eess.IV (4679) eess.SY (2924) stat.ML (4977)
「cs.SD」カテゴリーアーカイブ
DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models
要約 音声言語モデル (SLM) は、テキストベースのデコーダのみの言語モデルの … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む
Non-Invasive Suicide Risk Prediction Through Speech Analysis
要約 救急部門での専門的な精神医学的評価と自殺傾向のリスクのある患者へのケアへの … 続きを読む
Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach
要約 音声言語モデリングの最近の進歩により、音声から直接言語を学習することが可能 … 続きを読む
A Neural Transformer Framework for Simultaneous Tasks of Segmentation, Classification, and Caller Identification of Marmoset Vocalization
要約 マーモセットは、高度に鳴き声を発する霊長類であり、社会的コミュニケーション … 続きを読む
Aligning Audio-Visual Joint Representations with an Agentic Workflow
要約 ビジュアル コンテンツと付随するオーディオ信号は、オーディオビジュアル ( … 続きを読む
Sing it, Narrate it: Quality Musical Lyrics Translation
要約 ミュージカルの歌詞の翻訳には、長さや韻などの歌いやすさの要件を守りながら、 … 続きを読む
Very Attentive Tacotron: Robust and Unbounded Length Generalization in Autoregressive Transformer-Based Text-to-Speech
要約 自己回帰 (AR) Transformer ベースのシーケンス モデルは、 … 続きを読む
Structured Multi-Track Accompaniment Arrangement via Style Prior Modelling
要約 音楽 AI の分野では、シンプルなリードシートから豊かで構造化されたマルチ … 続きを読む