cs.CV」カテゴリーアーカイブ

Diffusion Classifiers Understand Compositionality, but Conditions Apply

要約 視覚的なシーンを理解することは、人間の知性の基本です。 識別モデルにはコン … 続きを読む

カテゴリー: cs.CV | Diffusion Classifiers Understand Compositionality, but Conditions Apply はコメントを受け付けていません

Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch

要約 スケッチリサーチは時間とともに集合的に成熟しているため、AT-Massの商 … 続きを読む

カテゴリー: cs.CV | Sketch Down the FLOPs: Towards Efficient Networks for Human Sketch はコメントを受け付けていません

ZeroGUI: Automating Online GUI Learning at Zero Human Cost

要約 大規模なビジョン言語モデル(VLM)の迅速な進歩により、純粋なビジョンベー … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | ZeroGUI: Automating Online GUI Learning at Zero Human Cost はコメントを受け付けていません

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

要約 空間インテリジェンスは、複雑な物理的世界で動作するマルチモーダル大手言語モ … 続きを読む

カテゴリー: cs.CL, cs.CV | MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence はコメントを受け付けていません

Weight Space Representation Learning on Diverse NeRF Architectures

要約 ニューラル放射輝度フィールド(NERF)は、神経ネットワークの重みに形状と … 続きを読む

カテゴリー: cs.CV | Weight Space Representation Learning on Diverse NeRF Architectures はコメントを受け付けていません

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

要約 マルチモーダル大手言語モデル(MLLM)の最近の進歩は、視覚言語のタスクに … 続きを読む

カテゴリー: cs.CV | Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought はコメントを受け付けていません

TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

要約 画像テキストモデルは、画像レベルのタスクに優れていますが、詳細な視覚的理解 … 続きを読む

カテゴリー: cs.CV | TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models はコメントを受け付けていません

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

要約 世界モデルの最近の進歩は、動的環境シミュレーションに革命をもたらし、システ … 続きを読む

カテゴリー: cs.CV, cs.RO | GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control はコメントを受け付けていません

SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels

要約 3D占有予測は、強力な幾何学的認識とオブジェクト認識能力のために、自律運転 … 続きを読む

カテゴリー: cs.CV | SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels はコメントを受け付けていません

The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector

要約 3Dオブジェクト検出は、自律駆動システムの重要なコンポーネントです。 さま … 続きを読む

カテゴリー: cs.CV | The Meeseeks Mesh: Spatially Consistent 3D Adversarial Objects for BEV Detector はコメントを受け付けていません