-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
要約 2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高い … 続きを読む
カテゴリー: cs.CV
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs はコメントを受け付けていません
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting
要約 深さマップは、フィードフォワード3Dガウススプラッティング(3DG)パイプ … 続きを読む
カテゴリー: cs.CV
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting はコメントを受け付けていません
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
要約 ビデオの理解の進歩にもかかわらず、現在のMLLMはタスクのカウントに苦労し … 続きを読む
カテゴリー: cs.CV
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs はコメントを受け付けていません
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
要約 Chain-of-Thought(COT)は、大規模な言語モデル(LLM) … 続きを読む
カテゴリー: cs.CV
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning はコメントを受け付けていません
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
要約 最近の長い形式のビデオ言語理解ベンチマークは、ビデオの大規模なマルチモーダ … 続きを読む
VideoMolmo: Spatio-Temporal Grounding Meets Pointing
要約 時空間局在は、生物学的研究から自律的なナビゲーションやインタラクティブなイ … 続きを読む
カテゴリー: cs.CV
VideoMolmo: Spatio-Temporal Grounding Meets Pointing はコメントを受け付けていません
Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh
要約 テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペ … 続きを読む
カテゴリー: cs.CV
Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh はコメントを受け付けていません
Direct Numerical Layout Generation for 3D Indoor Scene Synthesis via Spatial Reasoning
要約 具体化されたAIおよびデジタルコンテンツの作成には、現実的な3D屋内シーン … 続きを読む
Refer to Anything with Vision-Language Prompts
要約 最近の画像セグメンテーションモデルは、画像を視覚エンティティの高品質のマス … 続きを読む
ContentV: Efficient Training of Video Generation Models with Limited Compute
要約 ビデオ生成の最近の進歩は、計算コストのエスカレートを緩和するためにますます … 続きを読む
カテゴリー: cs.CV
ContentV: Efficient Training of Video Generation Models with Limited Compute はコメントを受け付けていません