「cs.MM」カテゴリーアーカイブ

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

投稿日: 2024年12月16日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO | コメントを受け付けていません

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

投稿日: 2024年12月13日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO | コメントを受け付けていません

Towards Open-Vocabulary Video Semantic Segmentation

投稿日: 2024年12月13日作成者: jarxiv

要約ビデオのセマンティックセグメンテーションは、最近の研究の焦点となっていま … 続きを読む →

カテゴリー: cs.AI, cs.MM | コメントを受け付けていません

Causal Graphical Models for Vision-Language Compositional Understanding

投稿日: 2024年12月13日作成者: jarxiv

要約最近の研究では、視覚言語モデル (VLM) が人間の言語の構成特性を完全に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Video Seal: Open and Efficient Video Watermarking

投稿日: 2024年12月13日作成者: jarxiv

要約 AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

投稿日: 2024年12月13日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) が進化するにつれて、より多用 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Representing Long Volumetric Video with Temporal Gaussian Hierarchy

投稿日: 2024年12月13日作成者: jarxiv

要約この論文は、マルチビュー RGB ビデオから長いボリュームビデオを再構成 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis

投稿日: 2024年12月12日作成者: jarxiv

要約任意の音声オーディオを使用したトーキングヘッド合成は、デジタルヒューマン … 続きを読む →

カテゴリー: cs.AI, cs.GR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis

投稿日: 2024年12月12日作成者: jarxiv

要約マルチモーダルアスペクトベース感情分析 (MABSA) は、テキストと画 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation

投稿日: 2024年12月11日作成者: jarxiv

要約近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む →

カテゴリー: cs.MM, cs.RO | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

Towards Open-Vocabulary Video Semantic Segmentation

Causal Graphical Models for Vision-Language Compositional Understanding

Video Seal: Open and Efficient Video Watermarking

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Representing Long Volumetric Video with Temporal Gaussian Hierarchy

PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis

A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis

RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation

最近の投稿

最近のコメント

アーカイブ

カテゴリー