-
最近の投稿
- A Data-Driven Modeling and Motion Control of Heavy-Load Hydraulic Manipulators via Reversible Transformation
- Data-Driven Multi-step Nonlinear Model Predictive Control for Industrial Heavy Load Hydraulic Robot
- Image Compression Using Novel View Synthesis Priors
- OTO Planner: An Efficient Only Travelling Once Exploration Planner for Complex and Unknown Environments
- t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving
-
最近のコメント
表示できるコメントはありません。 cs.AI (29990) cs.CL (22653) cs.CR (2325) cs.CV (36362) cs.LG (34812) cs.RO (17416) cs.SY (2673) eess.IV (4425) eess.SY (2667) stat.ML (4642)
「eess.AS」カテゴリーアーカイブ
OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation
要約 全二重音声対話システムは、人間と人間のやりとりを厳密に反映した同時双方向通 … 続きを読む
ELAICHI: Enhancing Low-resource TTS by Addressing Infrequent and Low-frequency Character Bigrams
要約 Text-to-Speech (TTS) テクノロジーの最近の進歩により、 … 続きを読む
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling
要約 言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec
要約 この論文では、話者の音声を完全に複製し、数秒間の音声プロンプトと単純なテキ … 続きを読む
Moonshine: Speech Recognition for Live Transcription and Voice Commands
要約 このペーパーでは、ライブ文字起こしと音声コマンド処理用に最適化された音声認 … 続きを読む
Continuous Speech Tokenizer in Text To Speech
要約 大規模な言語モデルの時代における音声と言語の融合は、大きな注目を集めていま … 続きを読む
Audio-to-Score Conversion Model Based on Whisper methodology
要約 この論文では、音楽オーディオからメロディーとコードを抽出し、ABC 記譜法 … 続きを読む
Can a Machine Distinguish High and Low Amount of Social Creak in Speech?
要約 目的: 特に女性の話者の間で社交的きしみの有病率が増加していることが、いく … 続きを読む
VoiceBench: Benchmarking LLM-Based Voice Assistants
要約 大規模言語モデル (LLM) の成功に基づいて、GPT-4o などの最近の … 続きを読む
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning
要約 大規模音声言語モデル (LALM) の最近の進歩により、音声および音声情報 … 続きを読む