投稿者「jarxiv」のアーカイブ

DSG-World: Learning a 3D Gaussian World Model from Dual State Videos

投稿日: 2025年6月6日作成者: jarxiv

要約限られた観察から効率的で身体的に一貫した世界モデルを構築することは、ビジョ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

投稿日: 2025年6月6日作成者: jarxiv

要約構造認識関連（SRR）トリプレットパラダイムを活用することにより、最新のア … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SAM-aware Test-time Adaptation for Universal Medical Image Segmentation

投稿日: 2025年6月6日作成者: jarxiv

要約セグメントを使用したユニバーサル医療画像セグメンテーションAnything … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking

投稿日: 2025年6月6日作成者: jarxiv

要約モバイルの視線追跡は基本的な課題に直面しています。ユーザーが自然に姿勢やデ … 続きを読む →

カテゴリー: 68T10, 68U35, C.2.4, cs.CV, cs.HC | コメントを受け付けていません

Stochastic Poisson Surface Reconstruction with One Solve using Geometric Gaussian Processes

投稿日: 2025年6月6日作成者: jarxiv

要約ポアソン表面再構築は、配向点クラウドから表面を再構築するための広く使用され … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, stat.ML | コメントを受け付けていません

Aligning Latent Spaces with Flow Priors

投稿日: 2025年6月6日作成者: jarxiv

要約このペーパーでは、流れベースの生成モデルを事前に活用することにより、学習可 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

投稿日: 2025年6月6日作成者: jarxiv

要約偽情報の拡散は、信頼性が高くスケーラブルな事実確認ソリューションを必要とし … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains

投稿日: 2025年6月6日作成者: jarxiv

要約 GPSが除外するオフロード環境における堅牢なクロスビュー3-DOFローカリ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs

投稿日: 2025年6月6日作成者: jarxiv

要約ほとんどのビデオ大規模な言語モデル（ビデオ-LLM）は、優先アライメント手 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards?

投稿日: 2025年6月6日作成者: jarxiv

要約現在、IDカードのプレゼンテーション攻撃検出（PAD）の主な課題の1つは、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

DSG-World: Learning a 3D Gaussian World Model from Dual State Videos

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

SAM-aware Test-time Adaptation for Universal Medical Image Segmentation

MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking

Stochastic Poisson Surface Reconstruction with One Solve using Geometric Gaussian Processes

Aligning Latent Spaces with Flow Priors

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains

LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs

Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards?

最近の投稿

最近のコメント

アーカイブ

カテゴリー