cs.CV」カテゴリーアーカイブ

Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos

要約 静的なフィードフォワードによるシーン再構成における最近の進歩は、高品質で新 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos はコメントを受け付けていません

Instance-Warp: Saliency Guided Image Warping for Unsupervised Domain Adaptation

要約 夜間、雨、雪などの条件下での運転は難しい。良いラベル付きデータセットがない … 続きを読む

カテゴリー: cs.CV, cs.LG | Instance-Warp: Saliency Guided Image Warping for Unsupervised Domain Adaptation はコメントを受け付けていません

StarVector: Generating Scalable Vector Graphics Code from Images and Text

要約 スケーラブル・ベクター・グラフィックス(SVG)は、そのスケーラビリティと … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | StarVector: Generating Scalable Vector Graphics Code from Images and Text はコメントを受け付けていません

VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis

要約 忠実度の高いビュー合成の生成は、ロボットのナビゲーションとインタラクション … 続きを読む

カテゴリー: cs.CV, cs.RO | VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis はコメントを受け付けていません

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

要約 マルチモーダル言語モデル(MLM)は、特殊なモデルが得意とする基本的な視覚 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Perception Tokens Enhance Visual Reasoning in Multimodal Language Models はコメントを受け付けていません

Imagine360: Immersive 360 Video Generation from Perspective Anchor

要約 360^circ$動画は、視聴者が360度全方位からダイナミックなシーンを … 続きを読む

カテゴリー: cs.CV | Imagine360: Immersive 360 Video Generation from Perspective Anchor はコメントを受け付けていません

PaliGemma 2: A Family of Versatile VLMs for Transfer

要約 PaliGemma 2は、Gemma 2言語モデルファミリーをベースにした … 続きを読む

カテゴリー: cs.CV | PaliGemma 2: A Family of Versatile VLMs for Transfer はコメントを受け付けていません

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

要約 本稿では、1枚の画像から3Dシーンを合成生成する新しいパラダイムであるMI … 続きを読む

カテゴリー: cs.CV | MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation はコメントを受け付けていません

FLAIR: VLM with Fine-grained Language-informed Image Representations

要約 CLIPは、画像とテキストを拡大縮小して整列させるという素晴らしい結果を示 … 続きを読む

カテゴリー: cs.AI, cs.CV | FLAIR: VLM with Fine-grained Language-informed Image Representations はコメントを受け付けていません

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

要約 大規模マルチモーダルモデル(LMM)は、インストラクションチューニングの進 … 続きを読む

カテゴリー: cs.CV | Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning はコメントを受け付けていません