-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
BATON: Aligning Text-to-Audio Model with Human Preference Feedback
要約 AI 生成コンテンツ (AIGC) の開発に伴い、テキスト音声変換モデルが … 続きを読む
Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters
要約 Mixture of Experts (MoE) アーキテクチャは、手頃な … 続きを読む
What Do Self-Supervised Speech and Speaker Models Learn? New Findings From a Cross Model Layer-Wise Analysis
要約 自己教師あり学習 (SSL) は、意味のある音声表現を学習するためにますま … 続きを読む
Do self-supervised speech and language models extract similar representations as human brain?
要約 自己教師あり学習 (SSL) を通じてトレーニングされた音声および言語モデ … 続きを読む
Revisiting speech segmentation and lexicon learning with better features
要約 ラベルのない音声を単語のようなセグメントに分割する自己教師ありの方法を再検 … 続きを読む
SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
要約 言語モデルの最近の進歩により、複数の音声関連タスクのパフォーマンスが大幅に … 続きを読む
Blind Audio Bandwidth Extension: A Diffusion-Based Zero-Shot Approach
要約 オーディオ帯域幅の拡張には、帯域制限された観測からの高周波スペクトルの現実 … 続きを読む
Textually Pretrained Speech Language Models
要約 音声言語モデル (SpeechLM) は、テキストによる監視なしで音響デー … 続きを読む
SEF-VC: Speaker Embedding Free Zero-Shot Voice Conversion with Cross Attention
要約 ゼロショット音声変換 (VC) は、言語内容を変更せずに、ソース スピーカ … 続きを読む
A Proactive and Dual Prevention Mechanism against Illegal Song Covers empowered by Singing Voice Conversion
要約 歌声変換 (SVC) は、ある歌手の歌声を、元の歌詞とメロディーを備えた別 … 続きを読む