-
最近の投稿
- Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization
- Effects of Muscle Synergy during Overhead Work with a Passive Shoulder Exoskeleton: A Case Study
- Development of a Low-Cost Prosthetic Hand Using Electromyography and Machine Learning
- Teaching Shortest Path Algorithms With a Robot and Overlaid Projections
- Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
-
最近のコメント
表示できるコメントはありません。 cs.AI (30124) cs.CL (22755) cs.CR (2336) cs.CV (36490) cs.LG (34945) cs.RO (17504) cs.SY (2689) eess.IV (4444) eess.SY (2683) stat.ML (4656)
「cs.MM」カテゴリーアーカイブ
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む
Versatile audio-visual learning for emotion recognition
要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む
Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、生 … 続きを読む
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study
要約 ディープ ニューラル ネットワークは最近、サウンド生成において画期的な進歩 … 続きを読む
AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics
要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む
Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention
要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む
LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification
要約 偽造画像の急増、特にディープフェイクコンテンツの津波の中で、偽造技術の継続 … 続きを読む
Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models
要約 この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細 … 続きを読む