-
最近の投稿
- Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
- Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models
- In-Context Meta LoRA Generation
- Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models
- An Efficient Numerical Function Optimization Framework for Constrained Nonlinear Robotic Problems
-
最近のコメント
表示できるコメントはありません。 cs.AI (32932) cs.CL (24897) cs.CR (2547) cs.CV (39077) cs.LG (37834) cs.RO (19152) cs.SY (2930) eess.IV (4679) eess.SY (2924) stat.ML (4977)
「cs.CV」カテゴリーアーカイブ
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding
要約 物理的な世界を理解することは、具体化されたAIの基本的な課題であり、エージ … 続きを読む
BiFold: Bimanual Cloth Folding with Language Guidance
要約 布の折りたたみは、衣服の避けられない自己閉鎖、複雑なダイナミクス、衣服が持 … 続きを読む
Improving Vision-Language-Action Model with Online Reinforcement Learning
要約 最近の研究は、エキスパートロボットデータセットを使用した監視付き微調整(S … 続きを読む
Dream to Drive with Predictive Individual World Model
要約 道路利用者の意図が不明であるため、複雑な都市環境でリラクティブな運転行動を … 続きを読む
SSF-PAN: Semantic Scene Flow-Based Perception for Autonomous Navigation in Traffic Scenarios
要約 複雑な交通シナリオでの車両の検出とローカリゼーションは、移動オブジェクトの … 続きを読む
3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow
要約 3Dビジョンと空間的推論は、特に2D画像に基づいた従来の視覚的推論と比較し … 続きを読む
AdaSemSeg: An Adaptive Few-shot Semantic Segmentation of Seismic Facies
要約 ディープラーニング方法を使用した地震画像の自動化された解釈は、トレーニング … 続きを読む
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
要約 テキストまたは単一の画像からの3Dコンテンツ生成における最近の進歩は、限ら … 続きを読む
Target-driven Self-Distillation for Partial Observed Trajectories Forecasting
要約 交通エージェントの将来の軌跡の正確な予測は、安全な自律運転を確保するために … 続きを読む
Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models
要約 自己学習学習は、効果的に訓練された場合、多数の画像または言語処理の問題を解 … 続きを読む