-
最近の投稿
- A Data-Driven Modeling and Motion Control of Heavy-Load Hydraulic Manipulators via Reversible Transformation
- Data-Driven Multi-step Nonlinear Model Predictive Control for Industrial Heavy Load Hydraulic Robot
- Image Compression Using Novel View Synthesis Priors
- OTO Planner: An Efficient Only Travelling Once Exploration Planner for Complex and Unknown Environments
- t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving
-
最近のコメント
表示できるコメントはありません。 cs.AI (29990) cs.CL (22653) cs.CR (2325) cs.CV (36362) cs.LG (34812) cs.RO (17416) cs.SY (2673) eess.IV (4425) eess.SY (2667) stat.ML (4642)
「eess.AS」カテゴリーアーカイブ
Everyday Speech in the Indian Subcontinent
要約 インドには 1,369 の言語があり、そのうち 22 が公用語です。 これ … 続きを読む
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies
要約 オーディオビジュアルディープフェイク検出に関する既存の方法は、オーディオデ … 続きを読む
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation
要約 最近、普及モデルはモノチャンネルオーディオ生成において大きな成功を収めてい … 続きを読む
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities
要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む
Enhancing Indonesian Automatic Speech Recognition: Evaluating Multilingual Models with Diverse Speech Variabilities
要約 理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト … 続きを読む
UniGlyph: A Seven-Segment Script for Universal Language Representation
要約 UniGlyph は、7 セグメント文字から派生したスクリプトを使用してユ … 続きを読む
Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models
要約 柔軟な音声認識ベースのシステムまたは音声プロンプトの大規模言語モデル (L … 続きを読む
Sylber: Syllabic Embedding Representation of Speech from Raw Audio
要約 音節は、人間の音声の知覚と生成において重要な役割を果たす話し言葉の構成単位 … 続きを読む
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling
要約 ビデオとオーディオの双方向の条件付き生成に合わせたマルチモーダル拡散モデル … 続きを読む