月別アーカイブ: 2025年3月

PointVLA: Injecting the 3D World into Vision-Language-Action Models

投稿日: 2025年3月11日作成者: jarxiv

要約 Vision-Language-action（VLA）モデルは、大規模な2 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

CPAny: Couple With Any Encoder to Refer Multi-Object Tracking

投稿日: 2025年3月11日作成者: jarxiv

要約参照マルチオブジェクト追跡（RMOT）は、ビデオの自然言語表現によって指定 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection

投稿日: 2025年3月11日作成者: jarxiv

要約インスタンスシャドウ検出は、既存のメソッドが最初に影とオブジェクトを独立し … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization

投稿日: 2025年3月11日作成者: jarxiv

要約従来のUAV-Viewジオローカリゼーション（UVGL）監視されたパラダイ … 続きを読む →

カテゴリー: cs.CV, cs.IR | コメントを受け付けていません

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

投稿日: 2025年3月11日作成者: jarxiv

要約視覚的理解は本質的に意図駆動型です – 人間は目標に基づいてシ … 続きを読む →

カテゴリー: cs.CV, I.2.10 | コメントを受け付けていません

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

投稿日: 2025年3月11日作成者: jarxiv

要約動的環境内でオブジェクトの動作を解釈することを含む物理的推論は、ビジョン言 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LBM: Latent Bridge Matching for Fast Image-to-Image Translation

投稿日: 2025年3月11日作成者: jarxiv

要約このホワイトペーパーでは、潜在的な汎用性のあるスケーラブルな方法である潜在 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

投稿日: 2025年3月11日作成者: jarxiv

要約モノクラービデオから3Dシーンを効率的に再構築することは、仮想現実、ロボッ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression

投稿日: 2025年3月11日作成者: jarxiv

要約トレーニング前の手法は、コンピュータービジョンを大きく進めており、Croc … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools

投稿日: 2025年3月11日作成者: jarxiv

要約世界を観察する能力は、環境と対話する方法について、推論と情報に基づいた決定 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年3月

PointVLA: Injecting the 3D World into Vision-Language-Action Models

CPAny: Couple With Any Encoder to Refer Multi-Object Tracking

FastInstShadow: A Simple Query-Based Model for Instance Shadow Detection

From Limited Labels to Open Domains: An Efficient Learning Paradigm for UAV-view Geo-Localization

VisRL: Intention-Driven Visual Perception via Reinforced Reasoning

Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models

LBM: Latent Bridge Matching for Fast Image-to-Image Translation

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression

MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools

最近の投稿

最近のコメント

アーカイブ

カテゴリー