-
最近の投稿
- Learning Decentralized Swarms Using Rotation Equivariant Graph Neural Networks
- SET-PAiREd: Designing for Parental Involvement in Learning with an AI-Assisted Educational Robot
- UASTHN: Uncertainty-Aware Deep Homography Estimation for UAV Satellite-Thermal Geo-localization
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
- The Geometry of Optimal Gait Families for Steering Kinematic Locomoting Systems
-
最近のコメント
表示できるコメントはありません。 cs.AI (34242) cs.CL (25887) cs.CR (2632) cs.CV (40143) cs.LG (39245) cs.RO (19992) cs.SY (3038) eess.IV (4777) eess.SY (3032) stat.ML (5176)
「cs.MM」カテゴリーアーカイブ
Versatile audio-visual learning for emotion recognition
要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む
Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、生 … 続きを読む
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
要約 ディープ ニューラル ネットワークは最近、サウンド生成において画期的な進歩 … 続きを読む
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification
要約 偽造画像の急増、特にディープフェイクコンテンツの津波の中で、偽造技術の継続 … 続きを読む
Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models
要約 この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細 … 続きを読む
Selective Vision-Language Subspace Projection for Few-shot CLIP
要約 CLIP などの視覚言語モデルは、さまざまなモダリティ データを統一された … 続きを読む