-
最近の投稿
- Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path?
- Generalization of the Gibbs algorithm with high probability at low temperatures
- DynamicGSG: Dynamic 3D Gaussian Scene Graphs for Environment Adaptation
- Conditional [MASK] Discrete Diffusion Language Model
- Para-Lane: Multi-Lane Dataset Registering Parallel Scans for Benchmarking Novel View Synthesis
-
最近のコメント
表示できるコメントはありません。 cs.AI (34109) cs.CL (25784) cs.CR (2623) cs.CV (40028) cs.LG (39094) cs.RO (19896) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5163)
「eess.AS」カテゴリーアーカイブ
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications
要約 この論文では、スイスドイツ語をケーススタディとして使用し、文レベルのデータ … 続きを読む
Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling
要約 会話アシスタントは、現実世界のさまざまなアプリケーションでますます普及して … 続きを読む
ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis
要約 韻律には、単語の文字通りの意味を超えた豊富な情報が含まれており、音声の明瞭 … 続きを読む
Stable-V2A: Synthesis of Synchronized Sound Effects with Temporal and Semantic Controls
要約 サウンド デザイナーやフォーリー アーティストは通常、ビデオ内の関心の … 続きを読む
GIRAFE: Glottal Imaging Dataset for Advanced Segmentation, Analysis, and Facilitative Playbacks Evaluation
要約 声帯の高速ビデオ内視鏡シーケンスから抽出された促進的再生の開発の進歩は … 続きを読む
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation
要約 私たちは、一時的に調整されたクロスモーダル コンディショニングのためのフリ … 続きを読む
I Know Your Feelings Before You Do: Predicting Future Affective Reactions in Human-Computer Dialogue
要約 現在の音声対話システム (SDS) は、多くの場合、ユーザーの音声を受信し … 続きを読む
Certification of Speaker Recognition Models to Additive Perturbations
要約 話者認識テクノロジーは、パーソナル仮想アシスタントから安全なアクセス シス … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む
Audio Array-Based 3D UAV Trajectory Estimation with LiDAR Pseudo-Labeling
要約 小型無人航空機 (UAV) の普及が進むにつれ、公共の安全とプライバシーへ … 続きを読む