cs.CV」カテゴリーアーカイブ

Owl-1: Omni World Model for Consistent Long Video Generation

要約 ビデオ生成モデル (VGM) は最近大きな注目を集めており、汎用大型ビジョ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Owl-1: Omni World Model for Consistent Long Video Generation はコメントを受け付けていません

TimeRefine: Temporal Grounding with Time Refining Video LLM

要約 ビデオの時間的グラウンディングは、テキストのプロンプトが与えられたビデオ内 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | TimeRefine: Temporal Grounding with Time Refining Video LLM はコメントを受け付けていません

Hidden Biases of End-to-End Driving Datasets

要約 エンドツーエンドの駆動システムは急速に進歩していますが、これまでのところ、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Hidden Biases of End-to-End Driving Datasets はコメントを受け付けていません

Do Multimodal Large Language Models See Like Humans?

要約 マルチモーダル大規模言語モデル (MLLM) は、大規模言語モデルの最近の … 続きを読む

カテゴリー: cs.CV | Do Multimodal Large Language Models See Like Humans? はコメントを受け付けていません

SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

要約 大規模言語モデル (LLM) の目覚ましい成功はマルチモーダル領域にまで広 … 続きを読む

カテゴリー: cs.CV | SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding はコメントを受け付けていません

Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

要約 ビジュアル ファウンデーション モデル (VFM) が広範なデータセットで … 続きを読む

カテゴリー: cs.CV | Feat2GS: Probing Visual Foundation Models with Gaussian Splatting はコメントを受け付けていません

Spectral Image Tokenizer

要約 画像トークナイザーは、画像を離散トークンのシーケンスにマッピングし、自己回 … 続きを読む

カテゴリー: cs.CV, cs.LG | Spectral Image Tokenizer はコメントを受け付けていません

Representing Long Volumetric Video with Temporal Gaussian Hierarchy

要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | Representing Long Volumetric Video with Temporal Gaussian Hierarchy はコメントを受け付けていません

PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models

要約 Large Vision-Language Model (VLM) は、画 … 続きを読む

カテゴリー: cs.CV | PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models はコメントを受け付けていません

Olympus: A Universal Task Router for Computer Vision Tasks

要約 マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Olympus: A Universal Task Router for Computer Vision Tasks はコメントを受け付けていません