cs.CV」カテゴリーアーカイブ

ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images

要約 医療画像技術の進歩により、同じ患者を長期間にわたって繰り返しスキャンして疾 … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images はコメントを受け付けていません

NeuralSVG: An Implicit Representation for Text-to-Vector Generation

要約 ベクター グラフィックスはデザインに不可欠であり、解像度に依存せず、高度に … 続きを読む

カテゴリー: cs.CV | NeuralSVG: An Implicit Representation for Text-to-Vector Generation はコメントを受け付けていません

RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance

要約 検索拡張生成 (RAG) は、外部知識を使用して応答生成をガイドすることで … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.IT, cs.LG, math.IT | RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance はコメントを受け付けていません

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

要約 この作品では、画像とビデオの両方をしっかりと根拠に基づいて理解するための初 … 続きを読む

カテゴリー: cs.CV | Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos はコメントを受け付けていません

Extraction Of Cumulative Blobs From Dynamic Gestures

要約 ジェスチャ認識は、コンピューターが人間の動きをコマンドとして解釈できるよう … 続きを読む

カテゴリー: 68T45, 68U10, cs.CV, H.5.2 | Extraction Of Cumulative Blobs From Dynamic Gestures はコメントを受け付けていません

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

要約 視覚言語モデル (VLM) の最近の進歩により、自動運転への使用、特に自然 … 続きを読む

カテゴリー: cs.CV, cs.RO | Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives はコメントを受け付けていません

LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes

要約 LiDAR データの事前トレーニングは、大規模ですぐに利用できるデータセッ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes はコメントを受け付けていません

LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving

要約 ビジョン基盤モデル (VFM) の最近の進歩により、2D の視覚認識に革命 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving はコメントを受け付けていません

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

要約 ビデオ生成は大幅に進歩しましたが、特定のオブジェクトをビデオに挿入すること … 続きを読む

カテゴリー: cs.CV | VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control はコメントを受け付けていません

SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild

要約 自然風景の画像内にビジュアル テキストを生成することは、多くの未解決の問題 … 続きを読む

カテゴリー: cs.CV | SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild はコメントを受け付けていません