-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields
要約 弱い重力レンズは、主に宇宙の暗黒物質の重力効果によって引き起こされる銀河形 … 続きを読む
カテゴリー: astro-ph.CO, cs.CV
Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields はコメントを受け付けていません
Diffusion Bridge Models for 3D Medical Image Translation
要約 拡散テンソルイメージング(DTI)は、人間の脳の微細構造に関する重要な洞察 … 続きを読む
カテゴリー: cs.CV
Diffusion Bridge Models for 3D Medical Image Translation はコメントを受け付けていません
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
要約 大規模なマルチモーダルモデル(LMM)は、ビデオフレームを均一に知覚し、本 … 続きを読む
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
要約 長いコンテキストマルチモーダル学習のために、フロンティアビジョンモデル(V … 続きを読む
カテゴリー: cs.CV
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models はコメントを受け付けていません
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models
要約 視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む
カテゴリー: cs.CV
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models はコメントを受け付けていません
DRAWER: Digital Reconstruction and Articulation With Environment Realism
要約 現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学 … 続きを読む
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs
要約 マルチビューの理解、効果的なナビゲーション、操作、3Dシーンの理解のために … 続きを読む
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
要約 視覚的推論は、人間の知能のコアコンポーネントであり、高度なマルチモーダルモ … 続きを読む
カテゴリー: cs.CV
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models はコメントを受け付けていません
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
要約 3Dガウスのスプラッティング(3DG)は、フォトリアリスティックシーンの再 … 続きを読む
カテゴリー: cs.CV
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians はコメントを受け付けていません
Analysing the Robustness of Vision-Language-Models to Common Corruptions
要約 Vision-Language Models(VLMS)は、視覚的およびテ … 続きを読む
カテゴリー: cs.CV
Analysing the Robustness of Vision-Language-Models to Common Corruptions はコメントを受け付けていません