cs.CV」カテゴリーアーカイブ

Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts

要約 推論セグメンテーションは、複雑で暗黙的な、さらには非視覚クエリテキストに関 … 続きを読む

カテゴリー: cs.CV | Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts はコメントを受け付けていません

ADROIT: A Self-Supervised Framework for Learning Robust Representations for Active Learning

要約 Active Learningは、ラベル付けに最適なサンプルを選択し、注釈 … 続きを読む

カテゴリー: cs.CV, cs.LG | ADROIT: A Self-Supervised Framework for Learning Robust Representations for Active Learning はコメントを受け付けていません

PE3R: Perception-Efficient 3D Reconstruction

要約 2Dから3Dの認識における最近の進歩により、2D画像からの3Dシーンの理解 … 続きを読む

カテゴリー: cs.CV | PE3R: Perception-Efficient 3D Reconstruction はコメントを受け付けていません

PointVLA: Injecting the 3D World into Vision-Language-Action Models

要約 Vision-Language-action(VLA)モデルは、大規模な2 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | PointVLA: Injecting the 3D World into Vision-Language-Action Models はコメントを受け付けていません

CPAny: Couple With Any Encoder to Refer Multi-Object Tracking

要約 参照マルチオブジェクト追跡(RMOT)は、ビデオの自然言語表現によって指定 … 続きを読む

カテゴリー: cs.CV | CPAny: Couple With Any Encoder to Refer Multi-Object Tracking はコメントを受け付けていません

FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection

要約 インスタンスシャドウ検出は、既存のメソッドが最初に影とオブジェクトを独立し … 続きを読む

カテゴリー: cs.CV | FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection はコメントを受け付けていません

From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization

要約 従来のUAV-Viewジオローカリゼーション(UVGL)監視されたパラダイ … 続きを読む

カテゴリー: cs.CV, cs.IR | From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization はコメントを受け付けていません

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

要約 視覚的理解は本質的に意図駆動型です – 人間は目標に基づいてシ … 続きを読む

カテゴリー: cs.CV, I.2.10 | VisRL: Intention-Driven Visual Perception via Reinforced Reasoning はコメントを受け付けていません

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

要約 動的環境内でオブジェクトの動作を解釈することを含む物理的推論は、ビジョン言 … 続きを読む

カテゴリー: cs.AI, cs.CV | Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models はコメントを受け付けていません

LBM: Latent Bridge Matching for Fast Image-to-Image Translation

要約 このホワイトペーパーでは、潜在的な汎用性のあるスケーラブルな方法である潜在 … 続きを読む

カテゴリー: cs.CV | LBM: Latent Bridge Matching for Fast Image-to-Image Translation はコメントを受け付けていません