-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models
要約 テキストから画像への生成における拡散モデルの採用の増加により、その信頼性に … 続きを読む
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
要約 大規模言語モデル (LLM) の急速な進歩により、その機能をマルチモーダル … 続きを読む
Interactive4D: Interactive 4D LiDAR Segmentation
要約 インタラクティブなセグメンテーションは、将来の LiDAR データセットの … 続きを読む
カテゴリー: cs.CV
Interactive4D: Interactive 4D LiDAR Segmentation はコメントを受け付けていません
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models
要約 離散拡散モデルは、画像生成やマスクされた言語モデリングなどのタスクでは成功 … 続きを読む
SPA: 3D Spatial-Awareness Enables Effective Embodied Representation
要約 この論文では、身体化された AI における 3D 空間認識の重要性を強調す … 続きを読む
Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision
要約 現在の大規模マルチモーダル モデル (LMM) は、モデルが言語コンポーネ … 続きを読む
PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection
要約 単一点教師あり指向物体検出は注目を集め、コミュニティ内で初期の進歩を遂げま … 続きを読む
LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts
要約 大規模ビジョン言語事前トレーニング (VLP) モデル (CLIP など) … 続きを読む
Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications
要約 車両やロボットなどの自律システムでは、人間と機械の安全なインタラクションの … 続きを読む
カテゴリー: cs.CV
Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications はコメントを受け付けていません
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
要約 視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基 … 続きを読む