cs.MM」カテゴリーアーカイブ

EVOS: Efficient Implicit Neural Training via EVOlutionary Selector

要約 私たちは、Implicit Neural Representation ( … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.NE | コメントする

Low-Latency Scalable Streaming for Event-Based Vision

要約 最近、高速、低消費電力のビデオ キャプチャ用の新しい「イベントベース」カメ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.NI | コメントする

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | コメントする

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

要約 大規模マルチモーダル モデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | コメントする

Towards Open-Vocabulary Video Semantic Segmentation

要約 ビデオのセマンティック セグメンテーションは、最近の研究の焦点となっていま … 続きを読む

カテゴリー: cs.AI, cs.MM | コメントする

Causal Graphical Models for Vision-Language Compositional Understanding

要約 最近の研究では、視覚言語モデル (VLM) が人間の言語の構成特性を完全に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントする

Video Seal: Open and Efficient Video Watermarking

要約 AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | コメントする

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

要約 マルチモーダル大規模言語モデル (MLLM) が進化するにつれて、より多用 … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

Representing Long Volumetric Video with Temporal Gaussian Hierarchy

要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | コメントする

PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis

要約 任意の音声オーディオを使用したトーキングヘッド合成は、デジタル ヒューマン … 続きを読む

カテゴリー: cs.AI, cs.GR, cs.MM, cs.SD, eess.AS | コメントする