「cs.CV」カテゴリーアーカイブ

Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos

投稿日: 2024年12月5日作成者: jarxiv

要約静的なフィードフォワードによるシーン再構成における最近の進歩は、高品質で新 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

Instance-Warp: Saliency Guided Image Warping for Unsupervised Domain Adaptation

投稿日: 2024年12月5日作成者: jarxiv

要約夜間、雨、雪などの条件下での運転は難しい。良いラベル付きデータセットがない … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

StarVector: Generating Scalable Vector Graphics Code from Images and Text

投稿日: 2024年12月5日作成者: jarxiv

要約スケーラブル・ベクター・グラフィックス(SVG)は、そのスケーラビリティと … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis

投稿日: 2024年12月5日作成者: jarxiv

要約忠実度の高いビュー合成の生成は、ロボットのナビゲーションとインタラクション … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

投稿日: 2024年12月5日作成者: jarxiv

要約マルチモーダル言語モデル(MLM)は、特殊なモデルが得意とする基本的な視覚 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Imagine360: Immersive 360 Video Generation from Perspective Anchor

投稿日: 2024年12月5日作成者: jarxiv

要約 360^circ$動画は、視聴者が360度全方位からダイナミックなシーンを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PaliGemma 2: A Family of Versatile VLMs for Transfer

投稿日: 2024年12月5日作成者: jarxiv

要約 PaliGemma 2は、Gemma 2言語モデルファミリーをベースにした … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

投稿日: 2024年12月5日作成者: jarxiv

要約本稿では、1枚の画像から3Dシーンを合成生成する新しいパラダイムであるMI … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FLAIR: VLM with Fine-grained Language-informed Image Representations

投稿日: 2024年12月5日作成者: jarxiv

要約 CLIPは、画像とテキストを拡大縮小して整列させるという素晴らしい結果を示 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

投稿日: 2024年12月5日作成者: jarxiv

要約大規模マルチモーダルモデル（LMM）は、インストラクションチューニングの進 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos

Instance-Warp: Saliency Guided Image Warping for Unsupervised Domain Adaptation

StarVector: Generating Scalable Vector Graphics Code from Images and Text

VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

Imagine360: Immersive 360 Video Generation from Perspective Anchor

PaliGemma 2: A Family of Versatile VLMs for Transfer

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

FLAIR: VLM with Fine-grained Language-informed Image Representations

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

最近の投稿

最近のコメント

アーカイブ

カテゴリー