-
最近の投稿
- Learning 3D Perception from Others’ Predictions
- Tokenization Falling Short: On Subword Robustness in Large Language Models
- Video Instruction Tuning With Synthetic Data
- StorySparkQA: Expert-Annotated QA Pairs with Real-World Knowledge for Children’s Story-Based Learning
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
-
最近のコメント
表示できるコメントはありません。 cs.AI (27643) cs.CL (20884) cs.CR (2168) cs.CV (34378) cs.LG (32374) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.SD」カテゴリーアーカイブ
Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning
要約 テキストから音楽へのモデルを使用すると、ユーザーはテキスト コマンドを使用 … 続きを読む
Synthesizer Sound Matching Using Audio Spectrogram Transformers
要約 入力サウンドをエミュレートするためにシンセサイザーのパラメータを自動的に設 … 続きを読む
Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks
要約 個々の楽器トラックの自動イコライゼーションのための新しいアプローチを提案し … 続きを読む
Evolutionary Prompt Design for LLM-Based Post-ASR Error Correction
要約 最新の大規模言語モデル (LLM) の強みを基盤として、生成的誤り訂正 ( … 続きを読む
Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning
要約 テキストから音楽へのモデルを使用すると、ユーザーはテキスト コマンドを使用 … 続きを読む
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
要約 最近、新しい形式の音声部分偽造がフォレンジックに課題をもたらしており、長時 … 続きを読む
Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models
要約 この論文では、テキストまたは参照音声プロンプトに基づいてサンプルベースの楽 … 続きを読む
TTSDS — Text-to-Speech Distribution Score
要約 最近公開された Text-to-Speech (TTS) システムの多くは … 続きを読む
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
要約 エンドツーエンドのマルチ話者音声認識は、複数の話者からの重複した音声を直接 … 続きを読む
J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling
要約 音声対話は人間と AI の対話において重要な役割を果たしており、対話指向の … 続きを読む