-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.CV」カテゴリーアーカイブ
Diffusion Bridge Models for 3D Medical Image Translation
要約 拡散テンソルイメージング(DTI)は、人間の脳の微細構造に関する重要な洞察 … 続きを読む
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
要約 大規模なマルチモーダルモデル(LMM)は、ビデオフレームを均一に知覚し、本 … 続きを読む
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
要約 長いコンテキストマルチモーダル学習のために、フロンティアビジョンモデル(V … 続きを読む
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models
要約 視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む
DRAWER: Digital Reconstruction and Articulation With Environment Realism
要約 現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学 … 続きを読む
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs
要約 マルチビューの理解、効果的なナビゲーション、操作、3Dシーンの理解のために … 続きを読む
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
要約 視覚的推論は、人間の知能のコアコンポーネントであり、高度なマルチモーダルモ … 続きを読む
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
要約 3Dガウスのスプラッティング(3DG)は、フォトリアリスティックシーンの再 … 続きを読む
Analysing the Robustness of Vision-Language-Models to Common Corruptions
要約 Vision-Language Models(VLMS)は、視覚的およびテ … 続きを読む
SLAM&Render: A Benchmark for the Intersection Between Neural Rendering, Gaussian Splatting and SLAM
要約 元々、ニューラル放射輝度フィールド(NERF)やガウスのスプラッティングな … 続きを読む