-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments
要約 Intphys 2は、深い学習モデルの直感的な物理的理解を評価するために設 … 続きを読む
カテゴリー: cs.CV
IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments はコメントを受け付けていません
ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models
要約 画像のシーケンス上の推論は、マルチモーダルの大手言語モデル(MLLMS)に … 続きを読む
ContentV: Efficient Training of Video Generation Models with Limited Compute
要約 ビデオ生成の最近の進歩は、計算コストのエスカレートを緩和するためにますます … 続きを読む
カテゴリー: cs.CV
ContentV: Efficient Training of Video Generation Models with Limited Compute はコメントを受け付けていません
Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation
要約 セマンティックセグメンテーション(DGSS)におけるオープンボキャブラリー … 続きを読む
カテゴリー: cs.CV
Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation はコメントを受け付けていません
SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding
要約 3Dオブジェクト検出のための低エネルギー消費は、自律運転などの分野での幅広 … 続きを読む
カテゴリー: cs.CV
SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding はコメントを受け付けていません
3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation
要約 ビジョン言語モデル(VLM)は、多様な視覚的および言語的タスクで顕著なパフ … 続きを読む
Traveling Waves Integrate Spatial Information Through Time
要約 神経活動の移動波は脳で広く観察されていますが、それらの正確な計算機能は不明 … 続きを読む
カテゴリー: cs.CV
Traveling Waves Integrate Spatial Information Through Time はコメントを受け付けていません
The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge
要約 一般化可能な新規ビューシンシシス(NVS)の問題を検討します。これは、シー … 続きを読む
カテゴリー: cs.CV
The Less You Depend, The More You Learn: Synthesizing Novel Views from Sparse, Unposed Images without Any 3D Knowledge はコメントを受け付けていません
EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks
要約 変換と不変で等しくなる自己監視表現を学ぶことは、従来の視覚分類タスクを超え … 続きを読む
カテゴリー: cs.CV
EquiCaps: Predictor-Free Pose-Aware Pre-Trained Capsule Networks はコメントを受け付けていません
CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects
要約 Tiny Object Detection(TOD)は、特徴のピラミッドネ … 続きを読む
カテゴリー: cs.CV
CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects はコメントを受け付けていません