-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Vision Transformers Don’t Need Trained Registers
要約 視覚変圧器における以前に特定された現象の根底にあるメカニズムを調査します。 … 続きを読む
BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion
要約 自律的な運転と具体化されたAIにおける重要なアプリケーションにより、オープ … 続きを読む
HOIDiNi: Human-Object Interaction through Diffusion Noise Optimization
要約 私たちは、現実的でもっともらしい人間とオブジェクトの相互作用(HOI)を合 … 続きを読む
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey
要約 分散分布(OOD)サンプルの検出は、機械学習システムの安全性を確保するため … 続きを読む
FindingDory: A Benchmark to Evaluate Memory in Embodied Agents
要約 大規模なビジョン言語モデルは最近、計画および制御タスクの印象的なパフォーマ … 続きを読む
Demystifying the Visual Quality Paradox in Multimodal Large Language Models
要約 最近のマルチモーダル大手言語モデル(MLLM)は、ベンチマークビジョン言語 … 続きを読む
Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning
要約 ビジョン言語モデル(VLM)の推論時間検索の大幅な進歩にもかかわらず、既存 … 続きを読む
Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models
要約 自律車両(AV)などの安全性が批判的な物理AIシステムの実世界データを収集 … 続きを読む
UniRelight: Learning Joint Decomposition and Synthesis for Video Relighting
要約 単一の画像またはビデオを再照合するという課題に対処します。これは、正確なシ … 続きを読む
Sekai: A Video Dataset towards World Exploration
要約 ビデオ生成技術は驚くべき進歩を遂げており、インタラクティブな世界探査の基盤 … 続きを読む