cs.CV」カテゴリーアーカイブ

Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields

要約 弱い重力レンズは、主に宇宙の暗黒物質の重力効果によって引き起こされる銀河形 … 続きを読む

カテゴリー: astro-ph.CO, cs.CV | Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields はコメントを受け付けていません

Diffusion Bridge Models for 3D Medical Image Translation

要約 拡散テンソルイメージング(DTI)は、人間の脳の微細構造に関する重要な洞察 … 続きを読む

カテゴリー: cs.CV | Diffusion Bridge Models for 3D Medical Image Translation はコメントを受け付けていません

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

要約 大規模なマルチモーダルモデル(LMM)は、ビデオフレームを均一に知覚し、本 … 続きを読む

カテゴリー: cs.CL, cs.CV | An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes はコメントを受け付けていません

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

要約 長いコンテキストマルチモーダル学習のために、フロンティアビジョンモデル(V … 続きを読む

カテゴリー: cs.CV | Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models はコメントを受け付けていません

ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models

要約 視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む

カテゴリー: cs.CV | ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models はコメントを受け付けていません

DRAWER: Digital Reconstruction and Articulation With Environment Realism

要約 現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学 … 続きを読む

カテゴリー: cs.CV, cs.RO | DRAWER: Digital Reconstruction and Articulation With Environment Realism はコメントを受け付けていません

Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs

要約 マルチビューの理解、効果的なナビゲーション、操作、3Dシーンの理解のために … 続きを読む

カテゴリー: cs.CL, cs.CV | Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs はコメントを受け付けていません

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

要約 視覚的推論は、人間の知能のコアコンポーネントであり、高度なマルチモーダルモ … 続きを読む

カテゴリー: cs.CV | VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models はコメントを受け付けていません

StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians

要約 3Dガウスのスプラッティング(3DG)は、フォトリアリスティックシーンの再 … 続きを読む

カテゴリー: cs.CV | StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians はコメントを受け付けていません

Analysing the Robustness of Vision-Language-Models to Common Corruptions

要約 Vision-Language Models(VLMS)は、視覚的およびテ … 続きを読む

カテゴリー: cs.CV | Analysing the Robustness of Vision-Language-Models to Common Corruptions はコメントを受け付けていません