-
最近の投稿
- ExDBN: Exact learning of Dynamic Bayesian Networks
- CartesianMoE: Boosting Knowledge Sharing among Experts via Cartesian Product Routing in Mixture-of-Experts
- Language Model Alignment in Multilingual Trolley Problems
- On-Device LLMs for SMEs: Challenges and Opportunities
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
-
最近のコメント
表示できるコメントはありません。 cs.AI (28405) cs.CL (21465) cs.CR (2219) cs.CV (35036) cs.LG (33152) cs.RO (16371) cs.SY (2518) eess.IV (4266) eess.SY (2512) stat.ML (4446)
「eess.AS」カテゴリーアーカイブ
Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator
要約 複数の話者の重複した音声は、音声認識と日記作成に重大な課題をもたらします。 … 続きを読む
LMs with a Voice: Spoken Language Modeling beyond Speech Tokens
要約 我々は、事前に訓練された言語モデル (LM) を適応させて音声継続を実行す … 続きを読む
AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
要約 STS (Speech-to-Singing) 音声変換タスクは、音声録音 … 続きを読む
Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR
要約 新しい LLM ベースのユースケースを世界中の人々が利用できるようにするに … 続きを読む
AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation
要約 音声直接翻訳 (S2ST) は、音声をある言語から別の言語に変換することを … 続きを読む
Unit-based Speech-to-Speech Translation Without Parallel Data
要約 我々は、ソース言語とターゲット言語間の並列データに依存しない教師なし音声対 … 続きを読む
Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning
要約 この論文では、視覚音声認識 (VSR) における通常の音声と無音音声の間の … 続きを読む
Modulation Extraction for LFO-driven Audio Effects
要約 フェイザー、フランジャー、コーラスなどの低周波発振器 (LFO) 駆動のオ … 続きを読む
Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters
要約 自動吹き替え用に音声を翻訳するには、機械翻訳が等時性である必要があります。 … 続きを読む
A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech
要約 きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む