Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models

要約

ゼロショット異常検出(ZSAD)は、新興広告パラダイムです。
モデルをトレーニングするために多数の通常のサンプルを必要とする従来の監視なしの広告設定とは異なり、ZSADはデータ制限の実世界のシナリオを処理するためにより実用的です。
最近、マルチモーダル大手言語モデル(MLLM)は、さまざまなビジョンタスクで革新的な推論能力を示しています。
ただし、対応するデータセットとベンチマークがないため、画像の異常の理由は露出度の低いままです。
AD&Reasoningの研究を容易にするために、最初の視覚命令チューニングデータセット、Anomaly-Instruct-125K、および評価ベンチマークであるVisa-D&Rを確立します。
ベンチマークを使用した調査を通じて、GPT-4oのような現在のMLLMは、画像の細粒の異常の詳細を正確に検出して記述できないことを明らかにします。
これに対処するために、ZSADおよび推論の最初の専門のビジュアルアシスタントであるAnomaly-onevision(Anomaly-ov)を提案します。
目視検査における人間の行動に触発されたAnomaly-ovは、異常な視覚トークンを適応的に選択し、強調するために、Look-Twice Featureマッチング(LTFM)メカニズムを活用します。
広範な実験は、異常が検出と推論の両方において、高度なジェネラリストモデルよりも大幅な改善を達成することを示しています。
医療および3D ADへの拡張は、将来の研究のために提供されます。
プロジェクトページへのリンク:https://xujiacong.github.io/anomaly-ov/

要約(オリジナル)

Zero-Shot Anomaly Detection (ZSAD) is an emerging AD paradigm. Unlike the traditional unsupervised AD setting that requires a large number of normal samples to train a model, ZSAD is more practical for handling data-restricted real-world scenarios. Recently, Multimodal Large Language Models (MLLMs) have shown revolutionary reasoning capabilities in various vision tasks. However, the reasoning of image abnormalities remains underexplored due to the lack of corresponding datasets and benchmarks. To facilitate research in AD & reasoning, we establish the first visual instruction tuning dataset, Anomaly-Instruct-125k, and the evaluation benchmark, VisA-D&R. Through investigation with our benchmark, we reveal that current MLLMs like GPT-4o cannot accurately detect and describe fine-grained anomalous details in images. To address this, we propose Anomaly-OneVision (Anomaly-OV), the first specialist visual assistant for ZSAD and reasoning. Inspired by human behavior in visual inspection, Anomaly-OV leverages a Look-Twice Feature Matching (LTFM) mechanism to adaptively select and emphasize abnormal visual tokens. Extensive experiments demonstrate that Anomaly-OV achieves significant improvements over advanced generalist models in both detection and reasoning. Extensions to medical and 3D AD are provided for future study. The link to our project page: https://xujiacong.github.io/Anomaly-OV/

arxiv情報

著者 Jiacong Xu,Shao-Yuan Lo,Bardia Safaei,Vishal M. Patel,Isht Dwivedi
発行日 2025-02-11 14:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models はコメントを受け付けていません

An Improved Optimal Proximal Gradient Algorithm for Non-Blind Image Deblurring

要約

画像の脱生は、画像処理の中心的な研究分野であり、画像の品質を向上させ、多様なアプリケーション全体でより明確な視覚表現を促進する上で重要です。
このペーパーでは、既知のぼやけたカーネルを仮定して、画像が脱毛する最適化の問題に取り組んでいます。
最適な勾配法と重みマトリックスに基づいて、非盲目の画像脱bluring問題に効率的に対処するための最適な近位勾配アルゴリズム(IOPTISTA)を導入します。
2つの正規化ケース、つまり$ l_1 $ normと総変動基準に基づいて、提案されたアルゴリズムのパフォーマンスを評価するために数値実験を実行します。
結果は、我々のアルゴリズムが既存の方法と比較して強化されたPSNR値とSSIM値、および許容度の低下をもたらすことを示しています。

要約(オリジナル)

Image deblurring remains a central research area within image processing, critical for its role in enhancing image quality and facilitating clearer visual representations across diverse applications. This paper tackles the optimization problem of image deblurring, assuming a known blurring kernel. We introduce an improved optimal proximal gradient algorithm (IOptISTA), which builds upon the optimal gradient method and a weighting matrix, to efficiently address the non-blind image deblurring problem. Based on two regularization cases, namely the $l_1$ norm and total variation norm, we perform numerical experiments to assess the performance of our proposed algorithm. The results indicate that our algorithm yields enhanced PSNR and SSIM values, as well as a reduced tolerance, compared to existing methods.

arxiv情報

著者 Qingsong Wang,Shengze Xu,Xiaojiao Tong,Tieyong Zeng
発行日 2025-02-11 14:52:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, math.OC | An Improved Optimal Proximal Gradient Algorithm for Non-Blind Image Deblurring はコメントを受け付けていません

Generalized Least Squares Kernelized Tensor Factorization

要約

不足しているエントリを備えた多次元テンソル構造データを完成させることは、不完全または破損したデータセットを含む多くの実際のアプリケーションにとって基本的なタスクです。
空間的または時間的な副情報を持つデータの場合、滑らかさの制約を備えた低ランク因子化モデルが強力なパフォーマンスを実証しています。
グローバルおよび長距離の相関をキャプチャするのに効果的ですが、これらのモデルは、データの短期的で高周波の変動をキャプチャするのに苦労しています。
この制限に対処するために、テンソル完了のために一般化された最小二乗核化テンソル因数分解(GLSKF)フレームワークを提案します。
GLSKFは、滑らかに制約された低ランク因数分解を局所的に相関する残留プロセスと統合します。
結果として生じる添加剤構造により、グローバル依存関係とローカルバリエーションの両方の効果的な特性評価が可能になります。
具体的には、共分散の規範を定義して、グローバルな低ランク因数分解における因子マトリックスの滑らかさを実施し、構造化された共分散/カーネル関数を使用してローカルプロセスをモデル化します。
モデル推定のために、各サブ問題に閉じた型ソリューションを備えた交互の最小二乗(ALS)手順を開発します。
GLSKFは、共分散のKronecker構造を保持する投影行列に基づいてゼロパッディングおよびスライス操作を使用し、共役勾配(CG)メソッドを介して効率的な計算を促進します。
提案されたフレームワークは、多様なタスク全体の4つの実際のデータセットで評価されます。
実験結果は、GLSKFが優れたパフォーマンスとスケーラビリティを達成し、多次元テンソル完了の新しいソリューションとして確立することを示しています。

要約(オリジナル)

Completing multidimensional tensor-structured data with missing entries is a fundamental task for many real-world applications involving incomplete or corrupted datasets. For data with spatial or temporal side information, low-rank factorization models with smoothness constraints have demonstrated strong performance. Although effective at capturing global and long-range correlations, these models often struggle to capture short-scale, high-frequency variations in the data. To address this limitation, we propose the Generalized Least Squares Kernelized Tensor Factorization (GLSKF) framework for tensor completion. GLSKF integrates smoothness-constrained low-rank factorization with a locally correlated residual process; the resulting additive structure enables effective characterization of both global dependencies and local variations. Specifically, we define the covariance norm to enforce the smoothness of factor matrices in the global low-rank factorization, and use structured covariance/kernel functions to model the local processes. For model estimation, we develop an alternating least squares (ALS) procedure with closed-form solutions for each subproblem. GLSKF utilizes zero-padding and slicing operations based on projection matrices which preserve the Kronecker structure of covariances, facilitating efficient computations through the conjugate gradient (CG) method. The proposed framework is evaluated on four real-world datasets across diverse tasks. Experimental results demonstrate that GLSKF achieves superior performance and scalability, establishing it as a novel solution for multidimensional tensor completion.

arxiv情報

著者 Mengying Lei,Lijun Sun
発行日 2025-02-11 14:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML | Generalized Least Squares Kernelized Tensor Factorization はコメントを受け付けていません

CoS: Chain-of-Shot Prompting for Long Video Understanding

要約

マルチモーダルの大手言語モデル(MLLM)は、過度の視覚トークンが必要なため、長いビデオと格闘しています。
これらのトークンはMLLMのコンテキスト長を大幅に超えており、その結果、冗長なタスクに関係のあるショットによって満たされます。
ショットを選択する方法は未解決の重要な問題です。まばらなサンプリングのリスク重要な詳細がありませんが、徹底的なサンプリングは無関係なコンテンツでモデルを圧倒し、ビデオの誤解につながります。
この問題を解決するために、チェーンオブショットプロンプト(cos)を提案します。
重要なアイデアは、ショットの選択をテスト時間の視覚プロンプトの最適化としてフレーム化し、ショットタスクアライメントを最適化することにより、ビデオ理解セマンティックタスクに適応するショットを選択することです。
COSには2つの重要な部分があります。(1)擬似時間的接地を実行するバイナリビデオ要約メカニズム、タスク関連のショットを識別するためのバイナリコーディングを発見し、(2)ペアに合わせてバイナリコーディングを展開するビデオ共同再季節モジュール(学習モジュール
並べる)タスク関連のポジティブなショットは、無関係なネガティブショットを備えています。
最適化されたショットの選択を元のビデオに埋め込み、長いビデオ理解を最適化するための関連するコンテキストに焦点を当てます。
3つのベースラインと5つのデータセットにわたる実験は、COSの有効性と適応性を示しています。
https://lwpyh.github.io/cosで指定されたコード。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

arxiv情報

著者 Jian Hu,Zixu Cheng,Chenyang Si,Wei Li,Shaogang Gong
発行日 2025-02-11 14:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoS: Chain-of-Shot Prompting for Long Video Understanding はコメントを受け付けていません

OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?

要約

専門家レベルのドメインの知識と意図的な認知を要求する全プロセスのOracle Bone Inscriptions(OBI)処理タスクで、大規模なマルチモーダルモデル(LMM)を体系的に評価するために作られたホリスティックベンチマークであるOBI-Benchを紹介します。
オビベンチには、5,523の細心の注意を払って収集された多様な画像が含まれており、5つの重要なドメインの問題をカバーしています。
これらの画像には、数世紀にわたり、考古学的な発見と長年にわたる最前線の学者による研究に至ります。これは、オリジナルのOracle Bone、Inked Tubbing、Oracle Bone Fragments、クロップドシングルキャラクター、手作業のキャラクターなど、発掘から合成までの多段階フォントの外観を含みます。
既存のベンチマークとは異なり、オビベンチは、OBI固有の知識を持つ高度な視覚的認識と推論に焦点を当てており、LMMに専門家が直面している人に似たタスクを実行するように挑戦します。
6つの独自のLMMと17のオープンソースLMMの評価は、オビベンチがもたらす実質的な課題と要求を強調しています。
GPT-4O、Gemini 1.5 Pro、およびQwen-VL-Maxの最新バージョンでさえ、いくつかの細かい知覚タスクにおいて、まだ公共レベルの人間とはほど遠いものです。
しかし、彼らは解読のタスクで訓練されていない人間に匹敵するレベルで機能し、新しい解釈的視点を提供し、創造的な推測を生み出す際の顕著な能力を示しています。
Obi-Benchがコミュニティを促進し、古代の言語研究に向けてドメイン固有のマルチモーダル基礎モデルを開発し、LMMのこれらの未開発の可能性を発見および強化するために深く掘り下げることを願っています。

要約(オリジナル)

We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single characters, and handprinted characters. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering tasks, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.

arxiv情報

著者 Zijian Chen,Tingzhu Chen,Wenjun Zhang,Guangtao Zhai
発行日 2025-02-11 14:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones? はコメントを受け付けていません

Flow Distillation Sampling: Regularizing 3D Gaussians with Pre-trained Matching Priors

要約

3D Gaussian Splatting(3DGS)は、高速トレーニングとレンダリング速度で優れたレンダリング品質を達成しました。
ただし、その最適化プロセスには明示的な幾何学的制約が欠けており、観測入力ビューがまばらまたはまったくない領域で最適ではない幾何学的再構成につながります。
この作業では、3DGS最適化プロセスの前に事前に訓練されたマッチングを組み込むことにより、問題を軽減しようとします。
フロー蒸留サンプリング(FDS)を導入します。これは、事前に訓練された幾何学的知識を活用してガウス放射輝度フィールドの精度を強化する手法です。
私たちの方法は、入力ビューに隣接する観測されていないビューをターゲットにする戦略的サンプリング手法を採用しており、マッチングモデル(前流)から計算された光学フローを利用して、3DGSジオメトリ(放射線フロー)から分析的に計算された流れを導きます。
詳細なレンダリング、メッシュ再構築、および新しいビュー合成の包括的な実験では、最先端の方法よりもFDSの重要な利点が示されています。
さらに、私たちの解釈実験と分析は、幾何学的精度と品質のレンダリングに対するFDの影響に光を当てることを目的としており、そのパフォーマンスに関する洞察を読者に提供する可能性があります。
プロジェクトページ:https://nju-3dv.github.io/projects/fds

要約(オリジナル)

3D Gaussian Splatting (3DGS) has achieved excellent rendering quality with fast training and rendering speed. However, its optimization process lacks explicit geometric constraints, leading to suboptimal geometric reconstruction in regions with sparse or no observational input views. In this work, we try to mitigate the issue by incorporating a pre-trained matching prior to the 3DGS optimization process. We introduce Flow Distillation Sampling (FDS), a technique that leverages pre-trained geometric knowledge to bolster the accuracy of the Gaussian radiance field. Our method employs a strategic sampling technique to target unobserved views adjacent to the input views, utilizing the optical flow calculated from the matching model (Prior Flow) to guide the flow analytically calculated from the 3DGS geometry (Radiance Flow). Comprehensive experiments in depth rendering, mesh reconstruction, and novel view synthesis showcase the significant advantages of FDS over state-of-the-art methods. Additionally, our interpretive experiments and analysis aim to shed light on the effects of FDS on geometric accuracy and rendering quality, potentially providing readers with insights into its performance. Project page: https://nju-3dv.github.io/projects/fds

arxiv情報

著者 Lin-Zhuo Chen,Kangjie Liu,Youtian Lin,Siyu Zhu,Zhihao Li,Xun Cao,Yao Yao
発行日 2025-02-11 15:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Flow Distillation Sampling: Regularizing 3D Gaussians with Pre-trained Matching Priors はコメントを受け付けていません

Scaling Pre-training to One Hundred Billion Data for Vision Language Models

要約

前例のないスケールでのトレーニング前のビジョン言語モデルの可能性についての経験的調査を提供します:1,000億の例。
モデルのパフォーマンスは、ココキャプションなどの多くの一般的な西部中心の分類および検索ベンチマークでこの規模で飽和する傾向があることがわかります。
それにもかかわらず、文化的多様性のタスクは、長期尾の概念をカバーしているおかげで、1,000億スケールのWebデータからより大きな利益を得ています。
さらに、モデルの多言語性を分析し、低リソース言語でも利益を示します。
さらに、通常、パフォーマンスを向上させるために使用されるクリップを使用するなどの高品質フィルターを介して、事前トレーニングデータセットのサイズを縮小することは、大規模なデータセットでも表される文化的多様性を誤って減らすことができることを観察します。
私たちの結果は、従来のベンチマークがノイズの多いRaw Webデータのスケーリングから1,000億の例に大きく利益を得ることはないかもしれないが、このデータスケールは真に包括的なマルチモーダルシステムを構築するために不可欠であることを強調しています。

要約(オリジナル)

We provide an empirical investigation of the potential of pre-training vision-language models on an unprecedented scale: 100 billion examples. We find that model performance tends to saturate at this scale on many common Western-centric classification and retrieval benchmarks, such as COCO Captions. Nevertheless, tasks of cultural diversity achieve more substantial gains from the 100-billion scale web data, thanks to its coverage of long-tail concepts. Furthermore, we analyze the model’s multilinguality and show gains in low-resource languages as well. In addition, we observe that reducing the size of the pretraining dataset via quality filters like using CLIP, typically used to enhance performance, may inadvertently reduce the cultural diversity represented even in large-scale datasets. Our results highlight that while traditional benchmarks may not benefit significantly from scaling noisy, raw web data to 100 billion examples, this data scale is vital for building truly inclusive multimodal systems.

arxiv情報

著者 Xiao Wang,Ibrahim Alabdulmohsin,Daniel Salz,Zhe Li,Keran Rong,Xiaohua Zhai
発行日 2025-02-11 15:05:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Scaling Pre-training to One Hundred Billion Data for Vision Language Models はコメントを受け付けていません

Towards Single-Lens Controllable Depth-of-Field Imaging via Depth-Aware Point Spread Functions

要約

制御可能なディープオブフィールド(DOF)イメージングは​​、一般に、重くて高価なハイエンドレンズに基づいて驚くべき視覚効果を生成します。
ただし、モバイルシナリオの需要の増加に直面しているため、ミニマリスト光学システム(MO)を使用して軽量ソリューションを実現することが望ましいです。
この作業は、MOの2つの主要な制限、つまり、計算方法を介して単一レンズ制御可能なDOFイメージングを達成するための重度の光学異常と制御不能なDOFを中心にしています。
深さに対応する制御可能なDOFイメージング(DCDI)フレームワークが提案されています。オールインフォーカス(AIF)異常補正と単眼深度推定が提案されています。ここでは、回復した画像と対応する深度マップが利用され、高いDOFの下でイメージング結果を生成するために使用されます。
– パッチごとの畳み込みによるエンドレンズ。
深さの変化の光学分解に対処するために、深さに触れた劣化適応トレーニング(DA2T)スキームを導入します。
データセットレベルでは、さまざまなオブジェクト距離でのポイントスプレッド関数(PSF)のシミュレーションに基づいて、深度認識異常MOS(DAMOS)データセットが確立されます。
さらに、深さ情報の回復に深さ情報を埋め込んで、深さに対応する劣化を改善するために、2つのプラグアンドプレイの深さアウェアメカニズムを設計します。
さらに、さまざまなレンズの4D PSFライブラリを表すために、ストレージ効率の高いOmni-Lens-Fieldモデルを提案します。
予測された深度マップ、回復した画像、およびオムニレンズフィールドによって推測される深度認識PSFマップにより、シングルレンズ制御可能なDOFイメージングが達成されます。
包括的な実験結果は、提案されたフレームワークが回復パフォーマンスを向上させ、印象的なシングルレンズ制御可能なDOFイメージング結果を達成し、このフィールドに独創的なベースラインを提供することを示しています。
ソースコードと確立されたデータセットは、https://github.com/xiaolongqian/dcdiで公開されます。

要約(オリジナル)

Controllable Depth-of-Field (DoF) imaging commonly produces amazing visual effects based on heavy and expensive high-end lenses. However, confronted with the increasing demand for mobile scenarios, it is desirable to achieve a lightweight solution with Minimalist Optical Systems (MOS). This work centers around two major limitations of MOS, i.e., the severe optical aberrations and uncontrollable DoF, for achieving single-lens controllable DoF imaging via computational methods. A Depth-aware Controllable DoF Imaging (DCDI) framework is proposed equipped with All-in-Focus (AiF) aberration correction and monocular depth estimation, where the recovered image and corresponding depth map are utilized to produce imaging results under diverse DoFs of any high-end lens via patch-wise convolution. To address the depth-varying optical degradation, we introduce a Depth-aware Degradation-adaptive Training (DA2T) scheme. At the dataset level, a Depth-aware Aberration MOS (DAMOS) dataset is established based on the simulation of Point Spread Functions (PSFs) under different object distances. Additionally, we design two plug-and-play depth-aware mechanisms to embed depth information into the aberration image recovery for better tackling depth-aware degradation. Furthermore, we propose a storage-efficient Omni-Lens-Field model to represent the 4D PSF library of various lenses. With the predicted depth map, recovered image, and depth-aware PSF map inferred by Omni-Lens-Field, single-lens controllable DoF imaging is achieved. Comprehensive experimental results demonstrate that the proposed framework enhances the recovery performance, and attains impressive single-lens controllable DoF imaging results, providing a seminal baseline for this field. The source code and the established dataset will be publicly available at https://github.com/XiaolongQian/DCDI.

arxiv情報

著者 Xiaolong Qian,Qi Jiang,Yao Gao,Shaohua Gao,Zhonghua Yi,Lei Sun,Kai Wei,Haifeng Li,Kailun Yang,Kaiwei Wang,Jian Bai
発行日 2025-02-11 15:06:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV, physics.optics | Towards Single-Lens Controllable Depth-of-Field Imaging via Depth-Aware Point Spread Functions はコメントを受け付けていません

Causal-Informed Contrastive Learning: Towards Bias-Resilient Pre-training under Concept Drift

要約

最上層データセットによって推進される大規模な対照的なトレーニングの進化は、スケーリング法の遷移点に達しました。
その結果、ドリフト環境でのモデルのトレーニング前の機能を維持および強化することは、顕著な課題として浮上しています。
この論文では、最初に、対照的なトレーニング前の方法がコンセプトドリフトによって大きく影響を受け、分布が予測不可能に変化し、事前に訓練されたモデルの特徴空間に顕著なバイアスをもたらすことを明らかにします。
因果推論に力を与え、概念ドリフトが体系的にコントラシスティング前のトレーニングを対象とする影響を分析するための構造的因果グラフを構築し、因果介入の対照的な目的を提案します。
これを達成すると、シンプルでスケーラブルな実装を使用して、コンセプトドリフトのデータストリームに対応するための回復力のある対照的なトレーニングアプローチを考案します。
さまざまな下流のタスクに関する広範な実験は、私たちの回復力のあるコントラスト前トレーニングが、コンセプトドリフトデータストリームに起因するバイアスを効果的に軽減することを示しています。
コードはhttps://anonymous.4open.science/r/resilientcl/で入手できます。

要約(オリジナル)

The evolution of large-scale contrastive pre-training propelled by top-tier datasets has reached a transition point in the scaling law. Consequently, sustaining and enhancing a model’s pre-training capabilities in drift environments have surfaced as a notable challenge. In this paper, we initially uncover that contrastive pre-training methods are significantly impacted by concept drift wherein distributions change unpredictably, resulting in notable biases in the feature space of the pre-trained model. Empowered by causal inference, we construct a structural causal graph to analyze the impact of concept drift to contrastive pre-training systemically, and propose the causal interventional contrastive objective. Upon achieving this, we devise a resilient contrastive pre-training approach to accommodate the data stream of concept drift, with simple and scalable implementation. Extensive experiments on various downstream tasks demonstrate our resilient contrastive pre-training effectively mitigates the bias stemming from the concept drift data stream. Codes are available at https://anonymous.4open.science/r/ResilientCL/.

arxiv情報

著者 Xiaoyu Yang,Jie Lu,En Yu
発行日 2025-02-11 15:09:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Causal-Informed Contrastive Learning: Towards Bias-Resilient Pre-training under Concept Drift はコメントを受け付けていません

Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

要約

環境とその変化を長期にわたって知覚することは、セマンティクスと動きという2つの基本的で不均一なタイプの情報に対応しています。
以前のエンドツーエンドの自律運転作業は、単一の機能ベクトル内の両方のタイプの情報を表しています。
ただし、予測や計画などのモーションタスクには、常に検出と追跡性能が損なわれます。これは、マルチタスク学習における負の転送として知られる現象です。
この問題に対処するために、ベイズフィルターと同様に、セマンティックとモーション学習を分離する新しい並列検出、追跡、および予測方法であるニューラルベイのモーションデコードを提案します。
具体的には、検出および追跡クエリと並行して動作する一連の学習モーションクエリを使用し、再帰的に更新された参照ポイントの統一されたセットを共有します。
さらに、セマンティックタスクの情報交換を強化するために、インタラクティブなセマンティックデコードを採用し、肯定的な転送を促進します。
Nuscenesデータセットの実験では、検出が5%、追跡が11%の改善が示されています。
私たちの方法は、計画モジュールを変更することなく、オープンループ計画評価で最先端の衝突率を達成します。

要約(オリジナル)

Perceiving the environment and its changes over time corresponds to two fundamental yet heterogeneous types of information: semantics and motion. Previous end-to-end autonomous driving works represent both types of information in a single feature vector. However, including motion tasks, such as prediction and planning, always impairs detection and tracking performance, a phenomenon known as negative transfer in multi-task learning. To address this issue, we propose Neural-Bayes motion decoding, a novel parallel detection, tracking, and prediction method separating semantic and motion learning, similar to the Bayes filter. Specifically, we employ a set of learned motion queries that operate in parallel with the detection and tracking queries, sharing a unified set of recursively updated reference points. Moreover, we employ interactive semantic decoding to enhance information exchange in semantic tasks, promoting positive transfer. Experiments on the nuScenes dataset show improvements of 5% in detection and 11% in tracking. Our method achieves state-of-the-art collision rates in open-loop planning evaluation without any modifications to the planning module.

arxiv情報

著者 Yinzhe Shen,Ömer Şahin Taş,Kaiwen Wang,Royden Wagner,Christoph Stiller
発行日 2025-02-11 15:21:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving はコメントを受け付けていません