「cs.CV」カテゴリーアーカイブ

Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts

投稿日: 2025年3月11日作成者: jarxiv

要約推論セグメンテーションは、複雑で暗黙的な、さらには非視覚クエリテキストに関 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ADROIT: A Self-Supervised Framework for Learning Robust Representations for Active Learning

投稿日: 2025年3月11日作成者: jarxiv

要約 Active Learningは、ラベル付けに最適なサンプルを選択し、注釈 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

PE3R: Perception-Efficient 3D Reconstruction

投稿日: 2025年3月11日作成者: jarxiv

要約 2Dから3Dの認識における最近の進歩により、2D画像からの3Dシーンの理解 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PointVLA: Injecting the 3D World into Vision-Language-Action Models

投稿日: 2025年3月11日作成者: jarxiv

要約 Vision-Language-action（VLA）モデルは、大規模な2 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

CPAny: Couple With Any Encoder to Refer Multi-Object Tracking

投稿日: 2025年3月11日作成者: jarxiv

要約参照マルチオブジェクト追跡（RMOT）は、ビデオの自然言語表現によって指定 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection

投稿日: 2025年3月11日作成者: jarxiv

要約インスタンスシャドウ検出は、既存のメソッドが最初に影とオブジェクトを独立し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization

投稿日: 2025年3月11日作成者: jarxiv

要約従来のUAV-Viewジオローカリゼーション（UVGL）監視されたパラダイ … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

投稿日: 2025年3月11日作成者: jarxiv

要約視覚的理解は本質的に意図駆動型です – 人間は目標に基づいてシ … 続きを読む →

カテゴリー: cs.CV, I.2.10 | コメントを受け付けていません

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

投稿日: 2025年3月11日作成者: jarxiv

要約動的環境内でオブジェクトの動作を解釈することを含む物理的推論は、ビジョン言 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LBM: Latent Bridge Matching for Fast Image-to-Image Translation

投稿日: 2025年3月11日作成者: jarxiv

要約このホワイトペーパーでは、潜在的な汎用性のあるスケーラブルな方法である潜在 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts

ADROIT: A Self-Supervised Framework for Learning Robust Representations for Active Learning

PE3R: Perception-Efficient 3D Reconstruction

PointVLA: Injecting the 3D World into Vision-Language-Action Models

CPAny: Couple With Any Encoder to Refer Multi-Object Tracking

FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection

From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

LBM: Latent Bridge Matching for Fast Image-to-Image Translation

最近の投稿

最近のコメント

アーカイブ

カテゴリー