月別アーカイブ: 2025年1月

VLM-driven Behavior Tree for Context-aware Task Planning

要約 ビヘイビア ツリー (BT) を生成するための大規模言語モデル (LLM) … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | VLM-driven Behavior Tree for Context-aware Task Planning はコメントを受け付けていません

ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images

要約 医療画像技術の進歩により、同じ患者を長期間にわたって繰り返しスキャンして疾 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images はコメントを受け付けていません

NeuralSVG: An Implicit Representation for Text-to-Vector Generation

要約 ベクター グラフィックスはデザインに不可欠であり、解像度に依存せず、高度に … 続きを読む

カテゴリー: cs.CV | NeuralSVG: An Implicit Representation for Text-to-Vector Generation はコメントを受け付けていません

RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance

要約 検索拡張生成 (RAG) は、外部知識を使用して応答生成をガイドすることで … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.IT, cs.LG, math.IT | RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance はコメントを受け付けていません

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

要約 この作品では、画像とビデオの両方をしっかりと根拠に基づいて理解するための初 … 続きを読む

カテゴリー: cs.CV | Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません

Extraction Of Cumulative Blobs From Dynamic Gestures

要約 ジェスチャ認識は、コンピューターが人間の動きをコマンドとして解釈できるよう … 続きを読む

カテゴリー: 68T45, 68U10, cs.CV, H.5.2 | Extraction Of Cumulative Blobs From Dynamic Gestures はコメントを受け付けていません

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

要約 視覚言語モデル (VLM) の最近の進歩により、自動運転への使用、特に自然 … 続きを読む

カテゴリー: cs.CV, cs.RO | Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives はコメントを受け付けていません

LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes

要約 LiDAR データの事前トレーニングは、大規模ですぐに利用できるデータセッ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes はコメントを受け付けていません

LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving

要約 ビジョン基盤モデル (VFM) の最近の進歩により、2D の視覚認識に革命 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving はコメントを受け付けていません

Multimodal Machine Learning Can Predict Videoconference Fluidity and Enjoyment

要約 ビデオ会議は現在、仕事上でも非公式でも頻繁に行われるコミュニケーション手段 … 続きを読む

カテゴリー: cs.HC, cs.LG, eess.AS, eess.IV | Multimodal Machine Learning Can Predict Videoconference Fluidity and Enjoyment はコメントを受け付けていません