cs.CV」カテゴリーアーカイブ

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

要約 Large Vision Language Model (LVLM) は視 … 続きを読む

カテゴリー: cs.CL, cs.CV | InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model はコメントを受け付けていません

DARB-Splatting: Generalizing Splatting with Decaying Anisotropic Radial Basis Functions

要約 スプラッティング ベースの 3D 再構成手法は、3D ガウス スプラッティ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | DARB-Splatting: Generalizing Splatting with Decaying Anisotropic Radial Basis Functions はコメントを受け付けていません

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

要約 Depth Anything は、強力な一般化能力により、単眼の深度推定に … 続きを読む

カテゴリー: cs.AI, cs.CV | Video Depth Anything: Consistent Depth Estimation for Super-Long Videos はコメントを受け付けていません

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

要約 ビデオ理解における基礎モデルを評価するための、専門家レベルの包括的な複数分 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MMVU: Measuring Expert-Level Multi-Discipline Video Understanding はコメントを受け付けていません

Parallel Sequence Modeling via Generalized Spatial Propagation Network

要約 本質的に 2D 空間構造を捕捉する視覚タスク用に最適化された新しい注意メカ … 続きを読む

カテゴリー: cs.CV, cs.LG | Parallel Sequence Modeling via Generalized Spatial Propagation Network はコメントを受け付けていません

DiffDoctor: Diagnosing Image Diffusion Models Before Treating

要約 最近の進歩にもかかわらず、画像拡散モデルは依然としてアーチファクトを生成し … 続きを読む

カテゴリー: cs.CV | DiffDoctor: Diagnosing Image Diffusion Models Before Treating はコメントを受け付けていません

CCESAR: Coastline Classification-Extraction From SAR Images Using CNN-U-Net Combination

要約 この記事では、画像分類とそれに続くセグメンテーションを含む 2 段階のモデ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | CCESAR: Coastline Classification-Extraction From SAR Images Using CNN-U-Net Combination はコメントを受け付けていません

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

要約 このペーパーは、ロング アンド リッチ コンテキスト (LRC) モデリン … 続きを読む

カテゴリー: cs.CV | InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling はコメントを受け付けていません

Continuous 3D Perception Model with Persistent State

要約 幅広い 3D タスクを解決できる統合フレームワークを紹介します。 私たちの … 続きを読む

カテゴリー: cs.CV | Continuous 3D Perception Model with Persistent State はコメントを受け付けていません

Taming Teacher Forcing for Masked Autoregressive Video Generation

要約 フレーム内生成のためのマスクされたモデリングと次のフレーム生成のための因果 … 続きを読む

カテゴリー: cs.CV | Taming Teacher Forcing for Masked Autoregressive Video Generation はコメントを受け付けていません