-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
Towards Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results
要約 ユーモアは人間の感情と認知の重要な要素です。 その自動理解により、より自然 … 続きを読む
CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition
要約 オーディオビジュアル人物認識 (AVPR) は大きな注目を集めています。 … 続きを読む
CLIP Brings Better Features to Visual Aesthetics Learners
要約 さまざまな下流タスクに対する事前トレーニング アプローチの成功により、コン … 続きを読む
Emotion4MIDI: a Lyrics-based Emotion-Labeled Symbolic Music Dataset
要約 12,000 の MIDI 曲から構成される新しい大規模な感情ラベル付き象 … 続きを読む
Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration
要約 効果的なビデオアクション認識モデルをトレーニングするには、特に限られたリソ … 続きを読む
Self-Supervised Visual Acoustic Matching
要約 音響マッチングの目的は、オーディオ クリップを再合成して、ターゲットの音響 … 続きを読む
SAS Video-QA: Self-Adaptive Sampling for Efficient Video Question-Answering
要約 ビデオの質問と回答は、ビデオ理解の分野における基本的なタスクです。 Vid … 続きを読む
WavJourney: Compositional Audio Creation with Large Language Models
要約 大規模言語モデル (LLM) は、複雑な言語と視覚のタスクに取り組むために … 続きを読む
A semantics-driven methodology for high-quality image annotation
要約 機械学習とコンピューター ビジョンの最近の研究では、グラウンド トゥルース … 続きを読む
Spectrum-guided Multi-granularity Referring Video Object Segmentation
要約 現在の参照ビデオ オブジェクト セグメンテーション (R-VOS) 技術は … 続きを読む