「cs.CV」カテゴリーアーカイブ

Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields

投稿日: 2025年4月22日作成者: jarxiv

要約弱い重力レンズは、主に宇宙の暗黒物質の重力効果によって引き起こされる銀河形 … 続きを読む →

カテゴリー: astro-ph.CO, cs.CV | コメントを受け付けていません

Diffusion Bridge Models for 3D Medical Image Translation

投稿日: 2025年4月22日作成者: jarxiv

要約拡散テンソルイメージング（DTI）は、人間の脳の微細構造に関する重要な洞察 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

投稿日: 2025年4月22日作成者: jarxiv

要約大規模なマルチモーダルモデル（LMM）は、ビデオフレームを均一に知覚し、本 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

投稿日: 2025年4月22日作成者: jarxiv

要約長いコンテキストマルチモーダル学習のために、フロンティアビジョンモデル（V … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

投稿日: 2025年4月22日作成者: jarxiv

要約視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DRAWER: Digital Reconstruction and Articulation With Environment Realism

投稿日: 2025年4月22日作成者: jarxiv

要約現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

投稿日: 2025年4月22日作成者: jarxiv

要約マルチビューの理解、効果的なナビゲーション、操作、3Dシーンの理解のために … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

投稿日: 2025年4月22日作成者: jarxiv

要約視覚的推論は、人間の知能のコアコンポーネントであり、高度なマルチモーダルモ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

投稿日: 2025年4月22日作成者: jarxiv

要約 3Dガウスのスプラッティング（3DG）は、フォトリアリスティックシーンの再 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Analysing the Robustness of Vision-Language-Models to Common Corruptions

投稿日: 2025年4月22日作成者: jarxiv

要約 Vision-Language Models（VLMS）は、視覚的およびテ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields

Diffusion Bridge Models for 3D Medical Image Translation

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

DRAWER: Digital Reconstruction and Articulation With Environment Realism

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

Analysing the Robustness of Vision-Language-Models to Common Corruptions

最近の投稿

最近のコメント

アーカイブ

カテゴリー