-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.SD」カテゴリーアーカイブ
Automated Detection of Dolphin Whistles with Convolutional Networks and Transfer Learning
要約 海洋環境の効果的な保全と絶滅危惧種の野生生物管理には、環境モニタリングのた … 続きを読む
ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation
要約 もともと自然言語処理用に開発されたビジョン トランスフォーマーは、長期的な … 続きを読む
Masked Modeling Duo: Learning Representations by Encouraging Both Networks to Model the Input
要約 Masked Autoencoders は、シンプルでありながら強力な自己 … 続きを読む
Listen, denoise, action! Audio-driven motion synthesis with diffusion models
要約 拡散モデルは、表現力が高く効率的にトレーニング可能な確率モデルとして関心が … 続きを読む
FlowGrad: Using Motion for Visual Sound Source Localization
要約 視覚的な音源定位に関する最新の研究は、自己管理型の方法で学習されたセマンテ … 続きを読む
Investigating Modality Bias in Audio Visual Video Parsing
要約 オーディオとビジュアルのイベント ラベルを時間境界で検出することを含むオー … 続きを読む
On the role of Lip Articulation in Visual Speech Perception
要約 オーディオからリアルな唇の動きを生成して音声生成をシミュレートすることは、 … 続きを読む
A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer
要約 アルツハイマー病(AD)は進行性の神経疾患であり、長年にわたって徐々に症状 … 続きを読む
SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker Embedding and Vision Transformers
要約 近年、音声感情認識(SER)は、音声信号をスペクトログラムに変換し、一般的 … 続きを読む