-
最近の投稿
- Counter-Hypothetical Particle Filters for Single Object Pose Tracking
- Robust High-Speed State Estimation for Off-road Navigation using Radar Velocity Factors
- A Propagation Perspective on Recursive Forward Dynamics for Systems with Kinematic Loops
- D2S: Representing sparse descriptors and 3D coordinates for camera relocalization
- Geometric Graph Neural Network Modeling of Human Interactions in Crowded Environments
-
最近のコメント
表示できるコメントはありません。 cs.AI (28533) cs.CL (21568) cs.CR (2228) cs.CV (35151) cs.LG (33295) cs.RO (16470) cs.SY (2535) eess.IV (4282) eess.SY (2529) stat.ML (4465)
「eess.AS」カテゴリーアーカイブ
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 タイトル:ビジョン・オーディオ・ランゲージ・オムニパーセプションの事前学習 … 続きを読む
Conditional Generation of Audio from Video via Foley Analogies
要約 タイトル:映像からの音声生成におけるFoleyアナロジーによる条件付け生成 … 続きを読む
Efficient Sequence Transduction by Jointly Predicting Tokens and Durations
要約 タイトル:トークンと期間を共同予測することによる効率的なシーケンス変換 要 … 続きを読む
HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition
要約 タイトル: HCAM – マルチモーダル感情認識のための階層的 … 続きを読む
Make More of Your Data: Minimal Effort Data Augmentation for Automatic Speech Recognition and Translation
要約 タイトル:自動音声認識と翻訳における最小限の努力データ拡張によるデータの最 … 続きを読む
On Data Sampling Strategies for Training Neural Network Speech Separation Models
要約 タイトル:ニューラルネットワーク音声分離モデルのトレーニングにおけるデータ … 続きを読む
A Phoneme-Informed Neural Network Model for Note-Level Singing Transcription
要約 タイトル:音素情報を利用した音符レベル歌唱転写のニューラルネットワークモデ … 続きを読む
Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning
要約 タイトル:外見は同じ、音は異なる:カウンターファクトのクロスモーダルペアを … 続きを読む
Soft Dynamic Time Warping for Multi-Pitch Estimation and Beyond
要約 タイトル:多重ピッチ推定におけるSoft Dynamic Time War … 続きを読む
Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects
要約 タイトル:音楽ミキシングスタイルの転送:対比学習アプローチによるオーディオ … 続きを読む