「cs.CV」カテゴリーアーカイブ

Owl-1: Omni World Model for Consistent Long Video Generation

投稿日: 2024年12月13日作成者: jarxiv

要約ビデオ生成モデル (VGM) は最近大きな注目を集めており、汎用大型ビジョ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

TimeRefine: Temporal Grounding with Time Refining Video LLM

投稿日: 2024年12月13日作成者: jarxiv

要約ビデオの時間的グラウンディングは、テキストのプロンプトが与えられたビデオ内 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Hidden Biases of End-to-End Driving Datasets

投稿日: 2024年12月13日作成者: jarxiv

要約エンドツーエンドの駆動システムは急速に進歩していますが、これまでのところ、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Do Multimodal Large Language Models See Like Humans?

投稿日: 2024年12月13日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、大規模言語モデルの最近の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

投稿日: 2024年12月13日作成者: jarxiv

要約大規模言語モデル (LLM) の目覚ましい成功はマルチモーダル領域にまで広 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

投稿日: 2024年12月13日作成者: jarxiv

要約ビジュアルファウンデーションモデル (VFM) が広範なデータセットで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Spectral Image Tokenizer

投稿日: 2024年12月13日作成者: jarxiv

要約画像トークナイザーは、画像を離散トークンのシーケンスにマッピングし、自己回 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Representing Long Volumetric Video with Temporal Gaussian Hierarchy

投稿日: 2024年12月13日作成者: jarxiv

要約この論文は、マルチビュー RGB ビデオから長いボリュームビデオを再構成 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models

投稿日: 2024年12月13日作成者: jarxiv

要約 Large Vision-Language Model (VLM) は、画 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Olympus: A Universal Task Router for Computer Vision Tasks

投稿日: 2024年12月13日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Owl-1: Omni World Model for Consistent Long Video Generation

TimeRefine: Temporal Grounding with Time Refining Video LLM

Hidden Biases of End-to-End Driving Datasets

Do Multimodal Large Language Models See Like Humans?

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

Spectral Image Tokenizer

Representing Long Volumetric Video with Temporal Gaussian Hierarchy

PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models

Olympus: A Universal Task Router for Computer Vision Tasks

最近の投稿

最近のコメント

アーカイブ

カテゴリー