-
最近の投稿
- An Adversarial Analysis of Thompson Sampling for Full-information Online Learning: from Finite to Infinite Action Spaces
- Data-Constrained Synthesis of Training Data for De-Identification
- AlphaMaze: Enhancing Large Language Models’ Spatial Intelligence via GRPO
- Temporal Misalignment in ANN-SNN Conversion and Its Mitigation via Probabilistic Spiking Neurons
- ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model
-
最近のコメント
表示できるコメントはありません。 cs.AI (34033) cs.CL (25731) cs.CR (2616) cs.CV (39970) cs.LG (39035) cs.RO (19852) cs.SY (3019) eess.IV (4758) eess.SY (3013) stat.ML (5151)
「cs.SD」カテゴリーアーカイブ
Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む
Salmon: A Suite for Acoustic Language Model Evaluation
要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models
要約 話者属性自動音声認識 (SA-ASR) は、音声を文字に起こしながら、対応 … 続きを読む
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
要約 近年、画像合成やテキスト生成の分野でAIGC(Artificial Int … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声 … 続きを読む
Optimizing Speech Multi-View Feature Fusion through Conditional Computation
要約 最近の進歩により、さまざまな音声関連タスクにおける自己教師あり学習 (SS … 続きを読む
Audio-visual Deepfake Detection With Local Temporal Inconsistencies
要約 この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む
AdaCS: Adaptive Normalization for Enhanced Code-Switching ASR
要約 センテンシャル内コードスイッチング (CS) は、単一の発話内で発生する言 … 続きを読む
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
要約 Large Audio-Language Model (LALM) は、音 … 続きを読む
Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding
要約 音声言語理解 (SLU) は、音声の分野における構造予測タスクです。 最近 … 続きを読む