投稿者「jarxiv」のアーカイブ

A Scoping Review of Earth Observation and Machine Learning for Causal Inference: Implications for the Geography of Poverty

投稿日: 2025年4月23日作成者: jarxiv

要約衛星画像などの地球観測（EO）データは、特に機械学習（ML）とコンピュータ … 続きを読む →

カテゴリー: 62H11, cs.CV, cs.LG, I.2.6, stat.ME, stat.ML | コメントを受け付けていません

Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis

投稿日: 2025年4月23日作成者: jarxiv

要約自己監視技術を使用して膨大な量のデータで訓練された基礎モデルは、医学におけ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

投稿日: 2025年4月23日作成者: jarxiv

要約ビデオから時空間シーングラフ（STSG）を学習するための監視されたアプロー … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.LO | コメントを受け付けていません

Vision language models are unreliable at trivial spatial cognition

投稿日: 2025年4月23日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、画像から関連する視覚空間情報を抽出するよう … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ForesightNav: Learning Scene Imagination for Efficient Exploration

投稿日: 2025年4月23日作成者: jarxiv

要約人間がどのように事前知識を活用して目に見えない環境をナビゲートしながら、探 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

投稿日: 2025年4月23日作成者: jarxiv

要約潜在的な拡散モデル（LDMS）は高品質の画像生成を支配しますが、表現学習を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Describe Anything: Detailed Localized Image and Video Captioning

投稿日: 2025年4月23日作成者: jarxiv

要約画像やビデオで特定の領域の詳細かつ正確な説明を生成することは、ビジョン言語 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

投稿日: 2025年4月23日作成者: jarxiv

要約最近のテキスト間拡散モデルは、トレーニングデータとモデルパラメーターの広範 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Survey of Video Diffusion Models: Foundations, Implementations, and Applications

投稿日: 2025年4月23日作成者: jarxiv

要約拡散モデルの最近の進歩により、ビデオ生成に革命をもたらし、従来の生成的敵対 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

MR. Video: ‘MapReduce’ is the Principle for Long Video Understanding

投稿日: 2025年4月23日作成者: jarxiv

要約 MRを提案します。ビデオ、長いビデオを処理するためのシンプルで効果的なM … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

A Scoping Review of Earth Observation and Machine Learning for Causal Inference: Implications for the Geography of Poverty

Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive Analysis

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

Vision language models are unreliable at trivial spatial cognition

ForesightNav: Learning Scene Imagination for Efficient Exploration

Boosting Generative Image Modeling via Joint Image-Feature Synthesis

Describe Anything: Detailed Localized Image and Video Captioning

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Survey of Video Diffusion Models: Foundations, Implementations, and Applications

MR. Video: ‘MapReduce’ is the Principle for Long Video Understanding

最近の投稿

最近のコメント

アーカイブ

カテゴリー