-
最近の投稿
- Scaling Policy Gradient Quality-Diversity with Massive Parallelization via Behavioral Variations
- Integrating LMM Planners and 3D Skill Policies for Generalizable Manipulation
- Clarke Transform and Encoder-Decoder Architecture for Arbitrary Joints Locations in Displacement-Actuated Continuum Robots
- One Stack, Diverse Vehicles: Checking Safe Portability of Automated Driving Software
- Designing Kresling Origami for Personalised Wrist Orthosis
-
最近のコメント
表示できるコメントはありません。 cs.AI (33060) cs.CL (24993) cs.CR (2556) cs.CV (39181) cs.LG (37978) cs.RO (19224) cs.SY (2943) eess.IV (4695) eess.SY (2937) stat.ML (4995)
「cs.SD」カテゴリーアーカイブ
Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks
要約 個々の楽器トラックの自動イコライゼーションのための新しいアプローチを提案し … 続きを読む
Evolutionary Prompt Design for LLM-Based Post-ASR Error Correction
要約 最新の大規模言語モデル (LLM) の強みを基盤として、生成的誤り訂正 ( … 続きを読む
Audio Prompt Adapter: Unleashing Music Editing Abilities for Text-to-Music with Lightweight Finetuning
要約 テキストから音楽へのモデルを使用すると、ユーザーはテキスト コマンドを使用 … 続きを読む
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization
要約 最近、新しい形式の音声部分偽造がフォレンジックに課題をもたらしており、長時 … 続きを読む
Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models
要約 この論文では、テキストまたは参照音声プロンプトに基づいてサンプルベースの楽 … 続きを読む
TTSDS — Text-to-Speech Distribution Score
要約 最近公開された Text-to-Speech (TTS) システムの多くは … 続きを読む
Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
要約 エンドツーエンドのマルチ話者音声認識は、複数の話者からの重複した音声を直接 … 続きを読む
J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling
要約 音声対話は人間と AI の対話において重要な役割を果たしており、対話指向の … 続きを読む
dMel: Speech Tokenization made Simple
要約 大規模な言語モデルは、膨大なテキスト データに対する自己教師あり事前トレー … 続きを読む
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2
要約 さまざまな程度の視覚障害に悩む中国人が増えているため、視野内の単一の画像ま … 続きを読む