-
最近の投稿
- BlabberSeg: Real-Time Embedded Open-Vocabulary Aerial Segmentation
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks
- Risk Assessment for Autonomous Landing in Urban Environments using Semantic Segmentation
- Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation
- RPCBF: Constructing Safety Filters Robust to Model Error and Disturbances via Policy Control Barrier Functions
-
最近のコメント
表示できるコメントはありません。 cs.AI (28260) cs.CL (21356) cs.CR (2207) cs.CV (34912) cs.LG (33009) cs.RO (16270) cs.SY (2503) eess.IV (4251) eess.SY (2497) stat.ML (4424)
「eess.AS」カテゴリーアーカイブ
Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge
要約 会話中の感情認識 (ERC) のタスクは、たとえばビデオベースの Mult … 続きを読む
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes
要約 我々は、AudioFormer という名前のメソッドを提案します。このメソ … 続きを読む
iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN
要約 逆短時間フーリエ変換ネットワーク (iSTFTNet) は、高速、軽量、高 … 続きを読む
Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers
要約 私たちは、自己教師あり (SSL) とディープアクティブラーニング (DA … 続きを読む
PitchNet: A Fully Convolutional Neural Network for Pitch Estimation
要約 音楽とサウンド処理の分野では、ピッチ抽出が極めて重要な役割を果たします。 … 続きを読む
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes
要約 私たちは、AudioFormer という名前のメソッドを提案します。このメ … 続きを読む
DiffSED: Sound Event Detection with Denoising Diffusion
要約 サウンド イベント検出 (SED) は、制約のないオーディオ サンプルを前 … 続きを読む
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
要約 音声テキスト プロンプトに基づく生成音声モデルの最近の進歩により、高品質の … 続きを読む
Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition
要約 音声感情認識 (SER) は、音声信号から人間の感情や感情状態を推測するこ … 続きを読む
Pretraining Respiratory Sound Representations using Metadata and Contrastive Learning
要約 エンドツーエンド方式でアノテーションを使用する教師あり学習に基づく方法は、 … 続きを読む