-
最近の投稿
- Adaptive Prompt: Unlocking the Power of Visual Prompt Tuning
- M2LADS Demo: A System for Generating Multimodal Learning Analytics Dashboards
- I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation
- Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution
- Weakly Supervised Video Scene Graph Generation via Natural Language Supervision
-
最近のコメント
表示できるコメントはありません。 cs.AI (34051) cs.CL (25735) cs.CR (2616) cs.CV (40020) cs.LG (39041) cs.RO (19856) cs.SY (3020) eess.IV (4763) eess.SY (3014) stat.ML (5152)
「cs.MM」カテゴリーアーカイブ
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む
Towards Open-Vocabulary Video Semantic Segmentation
要約 ビデオのセマンティック セグメンテーションは、最近の研究の焦点となっていま … 続きを読む
Causal Graphical Models for Vision-Language Compositional Understanding
要約 最近の研究では、視覚言語モデル (VLM) が人間の言語の構成特性を完全に … 続きを読む
Video Seal: Open and Efficient Video Watermarking
要約 AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により … 続きを読む
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition
要約 マルチモーダル大規模言語モデル (MLLM) が進化するにつれて、より多用 … 続きを読む
Representing Long Volumetric Video with Temporal Gaussian Hierarchy
要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む
PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis
要約 任意の音声オーディオを使用したトーキングヘッド合成は、デジタル ヒューマン … 続きを読む
A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis
要約 マルチモーダル アスペクトベース感情分析 (MABSA) は、テキストと画 … 続きを読む
RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation
要約 近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む