月別アーカイブ: 2025年3月

PointVLA: Injecting the 3D World into Vision-Language-Action Models

要約 Vision-Language-action(VLA)モデルは、大規模な2 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | PointVLA: Injecting the 3D World into Vision-Language-Action Models はコメントを受け付けていません

CPAny: Couple With Any Encoder to Refer Multi-Object Tracking

要約 参照マルチオブジェクト追跡(RMOT)は、ビデオの自然言語表現によって指定 … 続きを読む

カテゴリー: cs.CV | CPAny: Couple With Any Encoder to Refer Multi-Object Tracking はコメントを受け付けていません

FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection

要約 インスタンスシャドウ検出は、既存のメソッドが最初に影とオブジェクトを独立し … 続きを読む

カテゴリー: cs.CV | FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection はコメントを受け付けていません

From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization

要約 従来のUAV-Viewジオローカリゼーション(UVGL)監視されたパラダイ … 続きを読む

カテゴリー: cs.CV, cs.IR | From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization はコメントを受け付けていません

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

要約 視覚的理解は本質的に意図駆動型です – 人間は目標に基づいてシ … 続きを読む

カテゴリー: cs.CV, I.2.10 | VisRL: Intention-Driven Visual Perception via Reinforced Reasoning はコメントを受け付けていません

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

要約 動的環境内でオブジェクトの動作を解釈することを含む物理的推論は、ビジョン言 … 続きを読む

カテゴリー: cs.AI, cs.CV | Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models はコメントを受け付けていません

LBM: Latent Bridge Matching for Fast Image-to-Image Translation

要約 このホワイトペーパーでは、潜在的な汎用性のあるスケーラブルな方法である潜在 … 続きを読む

カテゴリー: cs.CV | LBM: Latent Bridge Matching for Fast Image-to-Image Translation はコメントを受け付けていません

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

要約 モノクラービデオから3Dシーンを効率的に再構築することは、仮想現実、ロボッ … 続きを読む

カテゴリー: cs.CV | VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment はコメントを受け付けていません

Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression

要約 トレーニング前の手法は、コンピュータービジョンを大きく進めており、Croc … 続きを読む

カテゴリー: cs.CV | Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression はコメントを受け付けていません

MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools

要約 世界を観察する能力は、環境と対話する方法について、推論と情報に基づいた決定 … 続きを読む

カテゴリー: cs.CV | MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools はコメントを受け付けていません