「cs.CV」カテゴリーアーカイブ

Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding

投稿日: 2025年6月9日作成者: jarxiv

要約ビジョン言語モデル（VLMS）の最近の進歩にもかかわらず、現在のベンチマー … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

投稿日: 2025年6月9日作成者: jarxiv

要約高解像度の画像合成で強力なパフォーマンスを達成する正規化フローに基づいたス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ExAct: A Video-Language Benchmark for Expert Action Analysis

投稿日: 2025年6月9日作成者: jarxiv

要約熟練した身体的人間の活動を専門レベルの理解のための新しいビデオ言語ベンチマ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CoMemo: LVLMs Need Image Context with Image Memory

投稿日: 2025年6月9日作成者: jarxiv

要約大規模な言語モデルに基づいて構築された大規模な視覚言語モデルの最近の進歩に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation

投稿日: 2025年6月9日作成者: jarxiv

要約現代の地球観測（EO）は、センサーと地域全体で衛星画像のスケールと多様性を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

投稿日: 2025年6月9日作成者: jarxiv

要約テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

投稿日: 2025年6月9日作成者: jarxiv

要約 NERFやGaussian Splatting（GS）を含むニューラルレン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

投稿日: 2025年6月9日作成者: jarxiv

要約このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs

投稿日: 2025年6月9日作成者: jarxiv

要約 2Dビジョン言語モデル（VLMS）の顕著な進歩は、3D質問応答、密度の高い … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments

投稿日: 2025年6月6日作成者: jarxiv

要約人道的脱出におけるロボット工学の使用には、地雷検出能力を改善するためのコン … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding

STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

ExAct: A Video-Language Benchmark for Expert Action Analysis

CoMemo: LVLMs Need Image Context with Image Memory

TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation

Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh

Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs

MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments

最近の投稿

最近のコメント

アーカイブ

カテゴリー