DSG-World: Learning a 3D Gaussian World Model from Dual State Videos

要約

限られた観察から効率的で身体的に一貫した世界モデルを構築することは、ビジョンとロボット工学における長年の課題です。
多くの既存の世界モデリングパイプラインは、訓練が難しく、しばしば3Dまたは物理的な一貫性を欠いている暗黙の生成モデルに基づいています。
一方、単一の状態から構築された明示的な3Dメソッドは、多くの場合、セグメンテーション、バックグラウンドの完了、およびオクルージョンへの入力距離など、マルチステージ処理などを必要とします。
これに対処するために、異なるオブジェクト構成の下で同じシーンの2つの乱れた観測値を活用します。
これらの二重状態は、補完的な可視性を提供し、状態の移行中の閉塞の問題を緩和し、より安定した完全な再建を可能にします。
この論文では、DSG-Worldを提示します。DSG-Worldは、デュアル状態観測から3Dガウス世界モデルを明示的に構築する新しいエンドツーエンドフレームワークです。
私たちのアプローチは、デュアルセグメンテーションを意識したガウスフィールドを構築し、双方向の測光およびセマンティックの一貫性を実施します。
さらに、幾何学的な完全性を改良するために、対称的なアライメントと設計コラボレーションの共同導入戦略のための擬似中間状態を導入します。
DSG-Worldは、明示的なガウス表現スペースで純粋に効率的な実質からシミュレーションへの転送を可能にし、密な観察やマルチステージパイプラインに依存することなく、高忠実度のレンダリングとオブジェクトレベルのシーン操作をサポートします。
広範な実験は、新しい見解とシーンの状態に対する強い一般化を示しており、現実世界の3D再構成とシミュレーションに対するアプローチの有効性を強調しています。

要約(オリジナル)

Building an efficient and physically consistent world model from limited observations is a long standing challenge in vision and robotics. Many existing world modeling pipelines are based on implicit generative models, which are hard to train and often lack 3D or physical consistency. On the other hand, explicit 3D methods built from a single state often require multi-stage processing-such as segmentation, background completion, and inpainting-due to occlusions. To address this, we leverage two perturbed observations of the same scene under different object configurations. These dual states offer complementary visibility, alleviating occlusion issues during state transitions and enabling more stable and complete reconstruction. In this paper, we present DSG-World, a novel end-to-end framework that explicitly constructs a 3D Gaussian World model from Dual State observations. Our approach builds dual segmentation-aware Gaussian fields and enforces bidirectional photometric and semantic consistency. We further introduce a pseudo intermediate state for symmetric alignment and design collaborative co-pruning trategies to refine geometric completeness. DSG-World enables efficient real-to-simulation transfer purely in the explicit Gaussian representation space, supporting high-fidelity rendering and object-level scene manipulation without relying on dense observations or multi-stage pipelines. Extensive experiments demonstrate strong generalization to novel views and scene states, highlighting the effectiveness of our approach for real-world 3D reconstruction and simulation.

arxiv情報

著者 Wenhao Hu,Xuexiang Wen,Xi Li,Gaoang Wang
発行日 2025-06-05 16:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DSG-World: Learning a 3D Gaussian World Model from Dual State Videos はコメントを受け付けていません

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

要約

構造認識関連(SRR)トリプレットパラダイムを活用することにより、最新のアートを進めるドキュメント解析のためのビジョン言語モデルであるMonkeyocrを紹介します。
この設計は、そうでなければ複雑なマルチツールパイプライン(Mineruのモジュラーアプローチのように)となるものを簡素化し、巨大なエンドツーエンドモデル(QWEN-VLなどの大規模なマルチモーダルLMSなど)でフルページを処理する効率を回避します。
SRRでは、ドキュメントの解析は3つの基本的な質問に抽象化されています – 「どこにありますか?」
(構造)、「それは何ですか?」
(認識)、そして「それはどのように整理されていますか?」
(関係) – レイアウト分析、コンテンツ識別、および論理順序に対応します。
この焦点を絞った分解は、精度と速度のバランスを取ります。精度を犠牲にすることなく、効率的でスケーラブルな処理を可能にします。
このアプローチを訓練および評価するために、Monkeydoc(これまでで最も包括的なドキュメント解析データセット)を紹介します。390万個のインスタンスは、中国語と英語の両方で10個以上のドキュメントタイプにまたがっています。
実験は、MonkeyocrがMineruを平均5.1%上回ることを示しており、特にフォーミュラ(+15.0%)や表(+8.6%)などの挑戦的なコンテンツを顕著に改善します。
驚くべきことに、私たちの3Bパラメーターモデルは、QWEN2.5-VL(72B)やGemini 2.5 Proを含むはるかに大きくてトップパフォーマンスのモデルを上回り、英語のドキュメント解析タスクで最先端の平均パフォーマンスを達成しています。
さらに、Monkeyocrはマルチページのドキュメントを大幅に高速に処理します(Mineruで0.65、QWEN2.5-VL-7Bで0.12と比較して0.84ページ)。
3Bモデルは、単一のNVIDIA 3090 GPUで推論のために効率的に展開できます。
コードとモデルはhttps://github.com/yuliang-liu/monkeyocrでリリースされます。

要約(オリジナル)

We introduce MonkeyOCR, a vision-language model for document parsing that advances the state of the art by leveraging a Structure-Recognition-Relation (SRR) triplet paradigm. This design simplifies what would otherwise be a complex multi-tool pipeline (as in MinerU’s modular approach) and avoids the inefficiencies of processing full pages with giant end-to-end models (e.g., large multimodal LLMs like Qwen-VL). In SRR, document parsing is abstracted into three fundamental questions – ‘Where is it?’ (structure), ‘What is it?’ (recognition), and ‘How is it organized?’ (relation) – corresponding to layout analysis, content identification, and logical ordering. This focused decomposition balances accuracy and speed: it enables efficient, scalable processing without sacrificing precision. To train and evaluate this approach, we introduce the MonkeyDoc (the most comprehensive document parsing dataset to date), with 3.9 million instances spanning over ten document types in both Chinese and English. Experiments show that MonkeyOCR outperforms MinerU by an average of 5.1%, with particularly notable improvements on challenging content such as formulas (+15.0%) and tables (+8.6%). Remarkably, our 3B-parameter model surpasses much larger and top-performing models, including Qwen2.5-VL (72B) and Gemini 2.5 Pro, achieving state-of-the-art average performance on English document parsing tasks. In addition, MonkeyOCR processes multi-page documents significantly faster (0.84 pages per second compared to 0.65 for MinerU and 0.12 for Qwen2.5-VL-7B). The 3B model can be efficiently deployed for inference on a single NVIDIA 3090 GPU. Code and models will be released at https://github.com/Yuliang-Liu/MonkeyOCR.

arxiv情報

著者 Zhang Li,Yuliang Liu,Qiang Liu,Zhiyin Ma,Ziyang Zhang,Shuo Zhang,Zidun Guo,Jiarui Zhang,Xinyu Wang,Xiang Bai
発行日 2025-06-05 16:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm はコメントを受け付けていません

SAM-aware Test-time Adaptation for Universal Medical Image Segmentation

要約

セグメントを使用したユニバーサル医療画像セグメンテーションAnything Anything Model(SAM)は、医療ドメインへの適応性が限られているため、依然として困難です。
Medsamなどの既存の適応は、医療イメージングにおけるSAMのパフォーマンスを強化しますが、目に見えないデータに一般化を減らすことができます。
したがって、このホワイトペーパーでは、SAMがアウェアするテスト時間適応(SAM-TTA)を提案します。これは、SAMの一般化を保持しながら、テスト時間フレームワークを介して医療画像のセグメンテーションパフォーマンスを改善する根本的に異なるパイプラインです。
SAM-TTAは、2つの重要な課題に取り組んでいます。(1)自然画像と医療画像間の画像獲得の違いによって引き起こされる入力レベルの矛盾、および(2)自然ドメインと医療ドメインの間のオブジェクト定義の基本的な違いによるセマンティックレベルの矛盾(例えば、明確な境界と曖昧な構造)。
具体的には、我々のSAM-TTAフレームワークは(1)自己適応性のbezier曲線ベースの変換(SBCT)で構成されています。これは、単一チャネルの医療画像を3チャンネルのSAM互換入力に適応的に変換し、構造的完全性を維持し、医学的および自然な画像の間の入力ギャップを緩和し、(2)デュアルスケールのemakaledのsmainty dums cmscidty dums a dumtを緩和します。
医療セマンティクスの表現、補助監督や高価な再訓練なしで効率的な適応を可能にします。
5つのパブリックデータセットでの広範な実験は、SAM-TTAが既存のTTAアプローチを上回り、特定のシナリオでMedsamなどの完全に微調整されたモデルを上回り、普遍的な医療画像セグメンテーションの新しいパラダイムを確立することを示しています。
コードはhttps://github.com/jianghaowu/sam-ttaにあります。

要約(オリジナル)

Universal medical image segmentation using the Segment Anything Model (SAM) remains challenging due to its limited adaptability to medical domains. Existing adaptations, such as MedSAM, enhance SAM’s performance in medical imaging but at the cost of reduced generalization to unseen data. Therefore, in this paper, we propose SAM-aware Test-Time Adaptation (SAM-TTA), a fundamentally different pipeline that preserves the generalization of SAM while improving its segmentation performance in medical imaging via a test-time framework. SAM-TTA tackles two key challenges: (1) input-level discrepancies caused by differences in image acquisition between natural and medical images and (2) semantic-level discrepancies due to fundamental differences in object definition between natural and medical domains (e.g., clear boundaries vs. ambiguous structures). Specifically, our SAM-TTA framework comprises (1) Self-adaptive Bezier Curve-based Transformation (SBCT), which adaptively converts single-channel medical images into three-channel SAM-compatible inputs while maintaining structural integrity, to mitigate the input gap between medical and natural images, and (2) Dual-scale Uncertainty-driven Mean Teacher adaptation (DUMT), which employs consistency learning to align SAM’s internal representations to medical semantics, enabling efficient adaptation without auxiliary supervision or expensive retraining. Extensive experiments on five public datasets demonstrate that our SAM-TTA outperforms existing TTA approaches and even surpasses fully fine-tuned models such as MedSAM in certain scenarios, establishing a new paradigm for universal medical image segmentation. Code can be found at https://github.com/JianghaoWu/SAM-TTA.

arxiv情報

著者 Jianghao Wu,Yicheng Wu,Yutong Xie,Wenjia Bai,You Zhang,Feilong Tang,Yulong Li,Yasmeen George,Imran Razzak
発行日 2025-06-05 16:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SAM-aware Test-time Adaptation for Universal Medical Image Segmentation はコメントを受け付けていません

MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking

要約

モバイルの視線追跡は基本的な課題に直面しています。ユーザーが自然に姿勢やデバイスの向きを変えるにつれて、正確性を維持します。
従来のキャリブレーションアプローチは、1回限りのように、これらの動的な条件に適応できず、長期にわたってパフォーマンスが低下します。
スマートフォンの慣性測定ユニット(IMU)センサーと継続的な学習手法を活用するモーション認識継続的なキャリブレーションアプローチであるMac-Gazeを提示し、ユーザーモーション状態の変更を自動的に検出し、それに応じて視線追跡モデルを更新します。
当社のシステムは、事前に訓練された視覚的視線推定器とIMUベースのアクティビティ認識モデルを、モーションパターンが以前に遭遇した状態から大幅に逸脱する場合に再調整をトリガーするクラスタリングベースのハイブリッド意思決定メカニズムと統合します。
壊滅的な忘却を緩和しながら新しい動き条件の蓄積学習を可能にするために、リプレイベースの継続的な学習を採用し、モデルが以前に遭遇した運動条件全体でパフォーマンスを維持できるようにします。
公開されているRGBDGAZEデータセットと10時間のマルチモーダルMotionAgazeデータセット(481K+画像、800K+ IMUの測定値)に関する広範な実験を通じて、システムを評価し、座っている、立っている、嘘をつく、歩くなど、さまざまな運動条件の下で幅広い姿勢を網羅しています。
結果は、私たちの方法が、従来の校正アプローチと比較して、RGBDgaze(1.73 cmから1.41 cm)で視線推定誤差を19.9%減少させ、MotionAgazeで31.7%(2.81 cmから1.92 cm)で31.7%減少することを示しています。
私たちのフレームワークは、モバイルシナリオで視線の推定精度を維持するための堅牢なソリューションを提供します。

要約(オリジナル)

Mobile gaze tracking faces a fundamental challenge: maintaining accuracy as users naturally change their postures and device orientations. Traditional calibration approaches, like one-off, fail to adapt to these dynamic conditions, leading to degraded performance over time. We present MAC-Gaze, a Motion-Aware continual Calibration approach that leverages smartphone Inertial measurement unit (IMU) sensors and continual learning techniques to automatically detect changes in user motion states and update the gaze tracking model accordingly. Our system integrates a pre-trained visual gaze estimator and an IMU-based activity recognition model with a clustering-based hybrid decision-making mechanism that triggers recalibration when motion patterns deviate significantly from previously encountered states. To enable accumulative learning of new motion conditions while mitigating catastrophic forgetting, we employ replay-based continual learning, allowing the model to maintain performance across previously encountered motion conditions. We evaluate our system through extensive experiments on the publicly available RGBDGaze dataset and our own 10-hour multimodal MotionGaze dataset (481K+ images, 800K+ IMU readings), encompassing a wide range of postures under various motion conditions including sitting, standing, lying, and walking. Results demonstrate that our method reduces gaze estimation error by 19.9% on RGBDGaze (from 1.73 cm to 1.41 cm) and by 31.7% on MotionGaze (from 2.81 cm to 1.92 cm) compared to traditional calibration approaches. Our framework provides a robust solution for maintaining gaze estimation accuracy in mobile scenarios.

arxiv情報

著者 Yaxiong Lei,Mingyue Zhao,Yuheng Wang,Shijing He,Yusuke Sugano,Mohamed Khamis,Juan Ye
発行日 2025-06-05 16:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, 68U35, C.2.4, cs.CV, cs.HC | MAC-Gaze: Motion-Aware Continual Calibration for Mobile Gaze Tracking はコメントを受け付けていません

Stochastic Poisson Surface Reconstruction with One Solve using Geometric Gaussian Processes

要約

ポアソン表面再構築は、配向点クラウドから表面を再構築するための広く使用されているアルゴリズムです。
部分的な表面情報のみが利用可能なアプリケーション、またはスキャンが順次実行されるアプリケーションを容易にするために、最近の作業ラインは、ガウスプロセスモデルを介して再構築された表面に不確実性を組み込むことを提案しています。
結果のアルゴリズムは、最初にガウスプロセス補間を実行し、次に宇宙でグローバルに一連の体積部分微分方程式を解き、計算上の高価な2段階の手順をもたらします。
この作業では、幾何学的なガウスプロセスから最近開発された手法を適用して、補間と表面再構成を単一の段階に組み合わせて、サンプルごとに1つの線形解を必要とします。
結果の再構築された表面サンプルは、問題依存の体積メッシュやグリッドを使用せずに、空間で局所的に照会できます。
これらの機能により、(a)関心領域の周りで局所的に確率的衝突検出を実行し、(b)光線の軌跡ではなくポイントを評価せずに光線鋳造を実行し、(c)レイごとに次のビュー計画を実行します。
また、以前の方法とは異なり、中間計算の一部として、対角線マトリックスとのカーネルマトリックスの逆を近似する必要はありません。
結果は、私たちのアプローチがよりクリーンで、より原始的で、より柔軟な確率的表面再構成パイプラインを提供することを示しています。

要約(オリジナル)

Poisson Surface Reconstruction is a widely-used algorithm for reconstructing a surface from an oriented point cloud. To facilitate applications where only partial surface information is available, or scanning is performed sequentially, a recent line of work proposes to incorporate uncertainty into the reconstructed surface via Gaussian process models. The resulting algorithms first perform Gaussian process interpolation, then solve a set of volumetric partial differential equations globally in space, resulting in a computationally expensive two-stage procedure. In this work, we apply recently-developed techniques from geometric Gaussian processes to combine interpolation and surface reconstruction into a single stage, requiring only one linear solve per sample. The resulting reconstructed surface samples can be queried locally in space, without the use of problem-dependent volumetric meshes or grids. These capabilities enable one to (a) perform probabilistic collision detection locally around the region of interest, (b) perform ray casting without evaluating points not on the ray’s trajectory, and (c) perform next-view planning on a per-ray basis. They also do not requiring one to approximate kernel matrix inverses with diagonal matrices as part of intermediate computations, unlike prior methods. Results show that our approach provides a cleaner, more-principled, and more-flexible stochastic surface reconstruction pipeline.

arxiv情報

著者 Sidhanth Holalkere,David S. Bindel,Silvia Sellán,Alexander Terenin
発行日 2025-06-05 16:54:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG, stat.ML | Stochastic Poisson Surface Reconstruction with One Solve using Geometric Gaussian Processes はコメントを受け付けていません

Aligning Latent Spaces with Flow Priors

要約

このペーパーでは、流れベースの生成モデルを事前に活用することにより、学習可能な潜在スペースを任意のターゲット分布に合わせるための新しいフレームワークを紹介します。
私たちの方法は、最初にターゲット機能のフローモデルを前提としており、基礎となる分布をキャプチャします。
その後、この固定フローモデルは、アライメント損失を介して潜在スペースを正規化します。これは、潜在性を最適化ターゲットとして扱うためにフローの一致する目的を再定式化します。
このアライメント損失を最小化することで、ターゲット分布の下での潜在性の対数尤度に関する変動下限を最大化するための計算上の牽引可能な代理目標を確立することを正式に証明します。
特に、提案された方法は、計算上の高価な尤度評価を排除し、最適化中にODE解決を回避します。
概念の証明として、制御された設定で、アライメント損失の状況がターゲット分布の負の対数尤度に密接に近似することを示します。
さらに、詳細な議論とアブレーション研究を伴う、多様なターゲット分布を備えたImagenetでの大規模な画像生成実験を通じて、アプローチの有効性をさらに検証します。
理論的および経験的検証の両方により、私たちのフレームワークは、潜在的な空間アライメントのための新しい方法を舗装します。

要約(オリジナル)

This paper presents a novel framework for aligning learnable latent spaces to arbitrary target distributions by leveraging flow-based generative models as priors. Our method first pretrains a flow model on the target features to capture the underlying distribution. This fixed flow model subsequently regularizes the latent space via an alignment loss, which reformulates the flow matching objective to treat the latents as optimization targets. We formally prove that minimizing this alignment loss establishes a computationally tractable surrogate objective for maximizing a variational lower bound on the log-likelihood of latents under the target distribution. Notably, the proposed method eliminates computationally expensive likelihood evaluations and avoids ODE solving during optimization. As a proof of concept, we demonstrate in a controlled setting that the alignment loss landscape closely approximates the negative log-likelihood of the target distribution. We further validate the effectiveness of our approach through large-scale image generation experiments on ImageNet with diverse target distributions, accompanied by detailed discussions and ablation studies. With both theoretical and empirical validation, our framework paves a new way for latent space alignment.

arxiv情報

著者 Yizhuo Li,Yuying Ge,Yixiao Ge,Ying Shan,Ping Luo
発行日 2025-06-05 16:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Aligning Latent Spaces with Flow Priors はコメントを受け付けていません

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

要約

偽情報の拡散は、信頼性が高くスケーラブルな事実確認ソリューションを必要とします。
オープンドメインのモジュール式ゼロショットMLLMパイプラインであるマルチモーダルの専門家(Defame)との動的なエビデンスに基づいたファクトチェックを提示します。
Defameは6段階のプロセスで動作し、ツールと検索の深さを動的に選択して、テキストおよび視覚的証拠を抽出および評価します。
テキストのみ、説明の欠如、またはパラメトリック知識のみに依存している以前のアプローチとは異なり、Defameはエンドツーエンドの検証を実行し、構造化されたマルチモーダルレポートを生成しながら、クレームと証拠の画像を説明します。
人気のあるベンチマークでの評価Verite、Averitec、およびMochegの評価は、Defameが以前のすべての方法を上回り、ユニットおよびマルチモーダルのファクトチェックの新しい最先端のファクトチェックシステムとしての地位を確立することを示しています。
さらに、GPT-4oの知識カットオフ後の主張を特徴とする新しいマルチモーダルベンチマークracreReview2024+を紹介し、データの漏れを回避します。
ここでは、DefameはGPT-4Oのベースラインを大幅に上回り、時間的な一般化可能性とリアルタイムのファクトチェックの可能性を示しています。

要約(オリジナル)

The proliferation of disinformation demands reliable and scalable fact-checking solutions. We present Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME), a modular, zero-shot MLLM pipeline for open-domain, text-image claim verification. DEFAME operates in a six-stage process, dynamically selecting the tools and search depth to extract and evaluate textual and visual evidence. Unlike prior approaches that are text-only, lack explainability, or rely solely on parametric knowledge, DEFAME performs end-to-end verification, accounting for images in claims and evidence while generating structured, multimodal reports. Evaluation on the popular benchmarks VERITE, AVerITeC, and MOCHEG shows that DEFAME surpasses all previous methods, establishing itself as the new state-of-the-art fact-checking system for uni- and multimodal fact-checking. Moreover, we introduce a new multimodal benchmark, ClaimReview2024+, featuring claims after the knowledge cutoff of GPT-4o, avoiding data leakage. Here, DEFAME drastically outperforms the GPT-4o baselines, showing temporal generalizability and the potential for real-time fact-checking.

arxiv情報

著者 Tobias Braun,Mark Rothermel,Marcus Rohrbach,Anna Rohrbach
発行日 2025-06-05 17:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts はコメントを受け付けていません

Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains

要約

GPSが除外するオフロード環境における堅牢なクロスビュー3-DOFローカリゼーションは、(1)繰り返しの植生と構造化されていない地形からの知覚的な曖昧さ、および(2)シーンの外観を大きく変化させ、古い衛星画像とのアライメントを妨げる季節変化のために困難なままです。
これに対処するために、正確なローカリゼーションに不可欠な方向性認識を維持しながら、視点とシーズン不変の表現を学習する自己監視されたクロスビュービデオローカリゼーションフレームワークであるMovixを紹介します。
Movixは、方向性の識別を強化するためのポーズ依存の肯定的なサンプリング戦略を採用し、季節的な手がかりからのショートカット学習を阻止するために、一時的にハードネガティブマイニングを整列させます。
モーション情報に基づいたフレームサンプラーは、空間的に多様なフレームを選択し、軽量の時間的アグリゲーターは、曖昧なものをダウンウェイトしながら、幾何学的に整列した観測を強調します。
推論では、Movixは、手作りモデルの代わりに学習したクロスビューマッチングモジュールを使用して、モンテカルロローカリゼーションフレームワーク内で実行されます。
エントロピー誘導温度スケーリングにより、堅牢なマルチハポテシス追跡と視覚的なあいまいさの下での自信のある収束が可能になります。
Tartandrive 2.0データセットのMovixを評価し、30分未満のデータでトレーニングし、12.29 kmを超えるテストを評価します。
時代遅れの衛星画像にもかかわらず、Movixは93%の時間の25メートル以内で、目に見えない地域では50メートル以内に100%以内に局在し、環境固有の調整なしに最先端のベースラインを上回ります。
さらに、異なるロボットプラットフォームを備えた地理的に異なるサイトから、実際のオフロードデータセットの一般化を実証します。

要約(オリジナル)

Robust cross-view 3-DoF localization in GPS-denied, off-road environments remains challenging due to (1) perceptual ambiguities from repetitive vegetation and unstructured terrain, and (2) seasonal shifts that significantly alter scene appearance, hindering alignment with outdated satellite imagery. To address this, we introduce MoViX, a self-supervised cross-view video localization framework that learns viewpoint- and season-invariant representations while preserving directional awareness essential for accurate localization. MoViX employs a pose-dependent positive sampling strategy to enhance directional discrimination and temporally aligned hard negative mining to discourage shortcut learning from seasonal cues. A motion-informed frame sampler selects spatially diverse frames, and a lightweight temporal aggregator emphasizes geometrically aligned observations while downweighting ambiguous ones. At inference, MoViX runs within a Monte Carlo Localization framework, using a learned cross-view matching module in place of handcrafted models. Entropy-guided temperature scaling enables robust multi-hypothesis tracking and confident convergence under visual ambiguity. We evaluate MoViX on the TartanDrive 2.0 dataset, training on under 30 minutes of data and testing over 12.29 km. Despite outdated satellite imagery, MoViX localizes within 25 meters of ground truth 93% of the time, and within 50 meters 100% of the time in unseen regions, outperforming state-of-the-art baselines without environment-specific tuning. We further demonstrate generalization on a real-world off-road dataset from a geographically distinct site with a different robot platform.

arxiv情報

著者 Zhiyun Deng,Dongmyeong Lee,Amanda Adkins,Jesse Quattrociocchi,Christian Ellis,Joydeep Biswas
発行日 2025-06-05 17:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains はコメントを受け付けていません

LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs

要約

ほとんどのビデオ大規模な言語モデル(ビデオ-LLM)は、優先アライメント手法、例えばDPO〜 \ CITEP {rafailov2024DPo}を採用して、勝利応答($ y_w $)と負けた応答($ y_l $)の間の報酬マージンを最適化します。
ただし、DPOで観察される尤度変位は、$ \ log \ pi_ \ theta(y_w \ mid x)$と$ \ log \ pi_ \ theta(y_l \ mid x)$の両方が、トレーニング中にしばしば減少し、非ターゲット応答の確率を繰り返し高めることを示しています。
この論文では、この現象をLLMSからVideo-LLMに体系的に再検討し、ビデオコンテンツの冗長な複雑さを扱うときに強化されることを示しています。
この現象の影響を緩和するために、\ emphing {lean fearpencrefacre otimization}(leanpo)を提案します。これは、ポリシーモデルに関する応答の平均的な可能性として暗黙の報酬を再定式化する参照のないアプローチです。
LEANPOの重要な要素は、報酬と信頼性の相関自己生成優先データパイプラインであり、自己反省を介して優先データを継続的に改良しながら、関連する事前知識をモデルに慎重に注入します。
これにより、ポリシーモデルは高品質のペアデータを取得し、新たに定義された報酬を正確に推定できるため、意図しないドロップを軽減できます。
さらに、多様なビデオコンテンツからの応答におけるノイズの影響を軽減する動的なラベルスムージング戦略を導入し、モデルが過剰に適合しないようにします。
広範な実験は、Leanpoが最先端のビデオLLMのパフォーマンスを大幅に向上させ、さまざまな能力のベースラインを最小限の追加トレーニングオーバーヘッドで一貫して高めることを示しています。
さらに、Leanpoは、人間の信頼性とビデオLLMの好みを調整するためのシンプルで効果的なソリューションを提供し、信頼できる効率的なビデオLLMへの道を開いています。

要約(オリジナル)

Most Video Large Language Models (Video-LLMs) adopt preference alignment techniques, e.g., DPO~\citep{rafailov2024dpo}, to optimize the reward margin between a winning response ($y_w$) and a losing response ($y_l$). However, the likelihood displacement observed in DPO indicates that both $\log \pi_\theta (y_w\mid x)$ and $\log \pi_\theta (y_l\mid x) $ often decrease during training, inadvertently boosting the probabilities of non-target responses. In this paper, we systematically revisit this phenomenon from LLMs to Video-LLMs, showing that it intensifies when dealing with the redundant complexity of video content. To alleviate the impact of this phenomenon, we propose \emph{Lean Preference Optimization} (LeanPO), a reference-free approach that reformulates the implicit reward as the average likelihood of the response with respect to the policy model. A key component of LeanPO is the reward-trustworthiness correlated self-generated preference data pipeline, which carefully infuses relevant prior knowledge into the model while continuously refining the preference data via self-reflection. This allows the policy model to obtain high-quality paired data and accurately estimate the newly defined reward, thus mitigating the unintended drop. In addition, we introduce a dynamic label smoothing strategy that mitigates the impact of noise in responses from diverse video content, preventing the model from overfitting to spurious details. Extensive experiments demonstrate that LeanPO significantly enhances the performance of state-of-the-art Video-LLMs, consistently boosting baselines of varying capacities with minimal additional training overhead. Moreover, LeanPO offers a simple yet effective solution for aligning Video-LLM preferences with human trustworthiness, paving the way toward the reliable and efficient Video-LLMs.

arxiv情報

著者 Xiaodong Wang,Jinfa Huang,Li Yuan,Peixi Peng
発行日 2025-06-05 17:21:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LeanPO: Lean Preference Optimization for Likelihood Alignment in Video-LLMs はコメントを受け付けていません

Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards?

要約

現在、IDカードのプレゼンテーション攻撃検出(PAD)の主な課題の1つは、IDカードを発行している国の多様性の一般化機能を獲得することです。
ほとんどのパッドシステムは、プライバシー保護の懸念のために、1、2、または3つのIDドキュメントでトレーニングされています。
その結果、未知の新しいIDカード国でテストされた場合、商業目的で競争結果を得ることはありません。
このシナリオでは、巨大なデータセットでトレーニングされた基礎モデル(FM)は、一般化能力の改善に役立ちます。
この作業は、FMの機能を改善し、ベンチマークすることを目的としています。また、それらを使用してIDドキュメントのPADの一般化を適応させる方法です。
ゼロショットと微調整と2つの異なるIDカードデータセットを考慮して、異なるテストプロトコルが使用されました。
チリのIDに基づく1つのプライベートデータセットと、フィンランド、スペイン、スロバキアの3つのID国に基づく1つのオープンセット。
私たちの調査結果は、真正な画像が一般化の鍵であることを示しています。

要約(オリジナル)

Nowadays, one of the main challenges in presentation attack detection (PAD) on ID cards is obtaining generalisation capabilities for a diversity of countries that are issuing ID cards. Most PAD systems are trained on one, two, or three ID documents because of privacy protection concerns. As a result, they do not obtain competitive results for commercial purposes when tested in an unknown new ID card country. In this scenario, Foundation Models (FM) trained on huge datasets can help to improve generalisation capabilities. This work intends to improve and benchmark the capabilities of FM and how to use them to adapt the generalisation on PAD of ID Documents. Different test protocols were used, considering zero-shot and fine-tuning and two different ID card datasets. One private dataset based on Chilean IDs and one open-set based on three ID countries: Finland, Spain, and Slovakia. Our findings indicate that bona fide images are the key to generalisation.

arxiv情報

著者 Juan E. Tapia,Christoph Busch
発行日 2025-06-05 17:24:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Can Foundation Models Generalise the Presentation Attack Detection Capabilities on ID Cards? はコメントを受け付けていません