投稿者「jarxiv」のアーカイブ

Vision Language Models as Values Detectors

要約 テキスト入力とビジュアル入力を統合した大規模言語モデルにより、複雑なデータ … 続きを読む

カテゴリー: cs.CV, cs.HC | Vision Language Models as Values Detectors はコメントを受け付けていません

Temporal Feature Weaving for Neonatal Echocardiographic Viewpoint Video Classification

要約 心エコー図における自動視点分類は、専門技術者が不在の場合に、リソースが不足 … 続きを読む

カテゴリー: cs.CV | Temporal Feature Weaving for Neonatal Echocardiographic Viewpoint Video Classification はコメントを受け付けていません

VLM-driven Behavior Tree for Context-aware Task Planning

要約 ビヘイビア ツリー (BT) を生成するための大規模言語モデル (LLM) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | VLM-driven Behavior Tree for Context-aware Task Planning はコメントを受け付けていません

ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images

要約 医療画像技術の進歩により、同じ患者を長期間にわたって繰り返しスキャンして疾 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images はコメントを受け付けていません

NeuralSVG: An Implicit Representation for Text-to-Vector Generation

要約 ベクター グラフィックスはデザインに不可欠であり、解像度に依存せず、高度に … 続きを読む

カテゴリー: cs.CV | NeuralSVG: An Implicit Representation for Text-to-Vector Generation はコメントを受け付けていません

RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance

要約 検索拡張生成 (RAG) は、外部知識を使用して応答生成をガイドすることで … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.IT, cs.LG, math.IT | RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance はコメントを受け付けていません

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

要約 この作品では、画像とビデオの両方をしっかりと根拠に基づいて理解するための初 … 続きを読む

カテゴリー: cs.CV | Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません

Extraction Of Cumulative Blobs From Dynamic Gestures

要約 ジェスチャ認識は、コンピューターが人間の動きをコマンドとして解釈できるよう … 続きを読む

カテゴリー: 68T45, 68U10, cs.CV, H.5.2 | Extraction Of Cumulative Blobs From Dynamic Gestures はコメントを受け付けていません

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

要約 視覚言語モデル (VLM) の最近の進歩により、自動運転への使用、特に自然 … 続きを読む

カテゴリー: cs.CV, cs.RO | Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives はコメントを受け付けていません

LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes

要約 LiDAR データの事前トレーニングは、大規模ですぐに利用できるデータセッ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes はコメントを受け付けていません