-
最近の投稿
- Learn With Imagination: Safe Set Guided State-wise Constrained Policy Optimization
- Effects of Muscle Synergy during Overhead Work with a Passive Shoulder Exoskeleton: A Case Study
- Development of a Low-Cost Prosthetic Hand Using Electromyography and Machine Learning
- Teaching Shortest Path Algorithms With a Robot and Overlaid Projections
- Speech to Reality: On-Demand Production using Natural Language, 3D Generative AI, and Discrete Robotic Assembly
-
最近のコメント
表示できるコメントはありません。 cs.AI (30124) cs.CL (22755) cs.CR (2336) cs.CV (36490) cs.LG (34945) cs.RO (17504) cs.SY (2689) eess.IV (4444) eess.SY (2683) stat.ML (4656)
「cs.MM」カテゴリーアーカイブ
Selective Vision-Language Subspace Projection for Few-shot CLIP
要約 CLIP などの視覚言語モデルは、さまざまなモダリティ データを統一された … 続きを読む
Shapley Value-based Contrastive Alignment for Multimodal Information Extraction
要約 ソーシャル メディアの台頭とマルチモーダル コミュニケーションの急激な成長 … 続きを読む
ReCorD: Reasoning and Correcting Diffusion for HOI Generation
要約 拡散モデルは、自然言語を活用してマルチメディア コンテンツの作成をガイドす … 続きを読む
Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images
要約 継続学習 (CL) は、一方向のトレーニング方法を打破し、モデルが新しいデ … 続きを読む
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
要約 最近、多くの研究で、OCR から派生したテキストと空間レイアウトを大規模言 … 続きを読む
Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation
要約 テキストから画像への取得は、意味的に関連するクロスモーダル コンテンツを取 … 続きを読む
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む
Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation
要約 このペーパーでは、特定のポートレート画像の顔の表情とカメラビューを制御でき … 続きを読む
QPT V2: Masked Image Modeling Advances Visual Scoring
要約 品質評価と美的評価は、視覚コンテンツの知覚された品質と美的感覚を評価するこ … 続きを読む
MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
要約 マルチモーダル大規模言語モデル (MLLM) は、ビデオ内の視覚、音響、言 … 続きを読む