cs.CV」カテゴリーアーカイブ

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

要約 物理的な世界を理解することは、具体化されたAIの基本的な課題であり、エージ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントする

Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models

要約 自己学習学習は、効果的に訓練された場合、多数の画像または言語処理の問題を解 … 続きを読む

カテゴリー: cs.CV | コメントする

GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI

要約 アルツハイマー病(AD)は、しばしば軽度の認知障害(MCI)に由来する進行 … 続きを読む

カテゴリー: cs.AI, cs.CV | コメントする

PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding

要約 物理的な世界を理解することは、具体化されたAIの基本的な課題であり、エージ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントする

BiFold: Bimanual Cloth Folding with Language Guidance

要約 布の折りたたみは、衣服の避けられない自己閉鎖、複雑なダイナミクス、衣服が持 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

Improving Vision-Language-Action Model with Online Reinforcement Learning

要約 最近の研究は、エキスパートロボットデータセットを使用した監視付き微調整(S … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Dream to Drive with Predictive Individual World Model

要約 道路利用者の意図が不明であるため、複雑な都市環境でリラクティブな運転行動を … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

SSF-PAN: Semantic Scene Flow-Based Perception for Autonomous Navigation in Traffic Scenarios

要約 複雑な交通シナリオでの車両の検出とローカリゼーションは、移動オブジェクトの … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow

要約 3Dビジョンと空間的推論は、特に2D画像に基づいた従来の視覚的推論と比較し … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | コメントする

AdaSemSeg: An Adaptive Few-shot Semantic Segmentation of Seismic Facies

要約 ディープラーニング方法を使用した地震画像の自動化された解釈は、トレーニング … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする