-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
要約 ディープ ニューラル ネットワークは最近、サウンド生成において画期的な進歩 … 続きを読む
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification
要約 偽造画像の急増、特にディープフェイクコンテンツの津波の中で、偽造技術の継続 … 続きを読む
Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models
要約 この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細 … 続きを読む
Selective Vision-Language Subspace Projection for Few-shot CLIP
要約 CLIP などの視覚言語モデルは、さまざまなモダリティ データを統一された … 続きを読む
Shapley Value-based Contrastive Alignment for Multimodal Information Extraction
要約 ソーシャル メディアの台頭とマルチモーダル コミュニケーションの急激な成長 … 続きを読む
ReCorD: Reasoning and Correcting Diffusion for HOI Generation
要約 拡散モデルは、自然言語を活用してマルチメディア コンテンツの作成をガイドす … 続きを読む
Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images
要約 継続学習 (CL) は、一方向のトレーニング方法を打破し、モデルが新しいデ … 続きを読む