-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年1月
VLM-driven Behavior Tree for Context-aware Task Planning
要約 ビヘイビア ツリー (BT) を生成するための大規模言語モデル (LLM) … 続きを読む
ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images
要約 医療画像技術の進歩により、同じ患者を長期間にわたって繰り返しスキャンして疾 … 続きを読む
NeuralSVG: An Implicit Representation for Text-to-Vector Generation
要約 ベクター グラフィックスはデザインに不可欠であり、解像度に依存せず、高度に … 続きを読む
カテゴリー: cs.CV
NeuralSVG: An Implicit Representation for Text-to-Vector Generation はコメントを受け付けていません
RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance
要約 検索拡張生成 (RAG) は、外部知識を使用して応答生成をガイドすることで … 続きを読む
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
要約 この作品では、画像とビデオの両方をしっかりと根拠に基づいて理解するための初 … 続きを読む
カテゴリー: cs.CV
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません
Extraction Of Cumulative Blobs From Dynamic Gestures
要約 ジェスチャ認識は、コンピューターが人間の動きをコマンドとして解釈できるよう … 続きを読む
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
要約 視覚言語モデル (VLM) の最近の進歩により、自動運転への使用、特に自然 … 続きを読む
LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes
要約 LiDAR データの事前トレーニングは、大規模ですぐに利用できるデータセッ … 続きを読む
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving
要約 ビジョン基盤モデル (VFM) の最近の進歩により、2D の視覚認識に革命 … 続きを読む