-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Vision Language Models as Values Detectors
要約 テキスト入力とビジュアル入力を統合した大規模言語モデルにより、複雑なデータ … 続きを読む
Temporal Feature Weaving for Neonatal Echocardiographic Viewpoint Video Classification
要約 心エコー図における自動視点分類は、専門技術者が不在の場合に、リソースが不足 … 続きを読む
カテゴリー: cs.CV
Temporal Feature Weaving for Neonatal Echocardiographic Viewpoint Video Classification はコメントを受け付けていません
VLM-driven Behavior Tree for Context-aware Task Planning
要約 ビヘイビア ツリー (BT) を生成するための大規模言語モデル (LLM) … 続きを読む
ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images
要約 医療画像技術の進歩により、同じ患者を長期間にわたって繰り返しスキャンして疾 … 続きを読む
NeuralSVG: An Implicit Representation for Text-to-Vector Generation
要約 ベクター グラフィックスはデザインに不可欠であり、解像度に依存せず、高度に … 続きを読む
カテゴリー: cs.CV
NeuralSVG: An Implicit Representation for Text-to-Vector Generation はコメントを受け付けていません
RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance
要約 検索拡張生成 (RAG) は、外部知識を使用して応答生成をガイドすることで … 続きを読む
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
要約 この作品では、画像とビデオの両方をしっかりと根拠に基づいて理解するための初 … 続きを読む
カテゴリー: cs.CV
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません
Extraction Of Cumulative Blobs From Dynamic Gestures
要約 ジェスチャ認識は、コンピューターが人間の動きをコマンドとして解釈できるよう … 続きを読む
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives
要約 視覚言語モデル (VLM) の最近の進歩により、自動運転への使用、特に自然 … 続きを読む
LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes
要約 LiDAR データの事前トレーニングは、大規模ですぐに利用できるデータセッ … 続きを読む