MaskHand: Generative Masked Modeling for Robust Hand Mesh Reconstruction in the Wild

要約

単一のRGB画像から3Dハンドメッシュを再構築することは、複雑な関節、自己閉塞、深さのあいまいさのために困難です。
2D画像から単一の3Dメッシュへの決定論的マッピングを学習する従来の識別方法は、多くの場合、2Dから3Dマッピングの固有のあいまいさに苦しんでいます。
この課題に対処するために、あいまいな2D-3Dマッピングプロセスの確率分布から学習とサンプリングにより、もっともらしい3Dハンドメッシュを合成するハンドメッシュ回復のための新しい生成マスクモデルであるMaskhandを提案します。
マスクハンドは、2つの重要なコンポーネントで構成されています。(1)VQ-Mano。これは、潜在空間で離散ポーズトークンとして3Dハンドアーティキュレーションをコードし、(2)トークンをランダムにマスクアウトし、破損したトークンシーケンス、画像のコンテキスト、2Dポーズシューに条件付けられたコンテキストガイド付きマスクされたトランスを調整します。
これにより、学習した分布は、推論中の信頼誘導サンプリングを促進し、不確実性と高精度でメッシュの再構成を生成します。
ベンチマークと現実世界のデータセットに関する広範な評価は、マスクハンドが3Dハンドメッシュ再構成における最先端の精度、堅牢性、およびリアリズムを達成することを示しています。
プロジェクトWebサイト:https://m-usamasaleem.github.io/publication/maskhand/maskhand.html。

要約(オリジナル)

Reconstructing a 3D hand mesh from a single RGB image is challenging due to complex articulations, self-occlusions, and depth ambiguities. Traditional discriminative methods, which learn a deterministic mapping from a 2D image to a single 3D mesh, often struggle with the inherent ambiguities in 2D-to-3D mapping. To address this challenge, we propose MaskHand, a novel generative masked model for hand mesh recovery that synthesizes plausible 3D hand meshes by learning and sampling from the probabilistic distribution of the ambiguous 2D-to-3D mapping process. MaskHand consists of two key components: (1) a VQ-MANO, which encodes 3D hand articulations as discrete pose tokens in a latent space, and (2) a Context-Guided Masked Transformer that randomly masks out pose tokens and learns their joint distribution, conditioned on corrupted token sequence, image context, and 2D pose cues. This learned distribution facilitates confidence-guided sampling during inference, producing mesh reconstructions with low uncertainty and high precision. Extensive evaluations on benchmark and real-world datasets demonstrate that MaskHand achieves state-of-the-art accuracy, robustness, and realism in 3D hand mesh reconstruction. Project website: https://m-usamasaleem.github.io/publication/MaskHand/MaskHand.html.

arxiv情報

著者 Muhammad Usama Saleem,Ekkasit Pinyoanuntapong,Mayur Jagdishbhai Patel,Hongfei Xue,Ahmed Helmy,Srijan Das,Pu Wang
発行日 2025-03-19 14:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MaskHand: Generative Masked Modeling for Robust Hand Mesh Reconstruction in the Wild はコメントを受け付けていません

Challenges and Trends in Egocentric Vision: A Survey

要約

人工知能技術とウェアラブルデバイスの急速な発展に伴い、自己中心的なビジョンの理解は、新しい挑戦的な研究方向として浮上し、学界と産業の両方から徐々に注目を集めています。
エゴセントリックビジョンは、人体に着用されたカメラまたはセンサーを介して視覚データとマルチモーダルデータをキャプチャし、人間の視覚体験をシミュレートするユニークな視点を提供します。
このホワイトペーパーでは、エゴセントリックビジョン理解に関する研究に関する包括的な調査を提供し、エゴセントリックシーンのコンポーネントを体系的に分析し、タスクを4つの主要な分野に分類することを提供します:対象の理解、オブジェクト理解、環境理解、ハイブリッド理解。
各カテゴリ内のサブタスクを詳細に調査します。
また、現在この分野に存在する主な課題と傾向を要約します。
さらに、このペーパーでは、高品質のエゴセントリックビジョンデータセットの概要を示し、将来の研究に貴重なリソースを提供します。
最新の進歩を要約することにより、拡張現実、仮想現実、具体化された知性などの分野におけるエゴセントリックビジョン技術の幅広いアプリケーションを予想し、分野の最新の開発に基づいて将来の研究の方向性を提案します。

要約(オリジナル)

With the rapid development of artificial intelligence technologies and wearable devices, egocentric vision understanding has emerged as a new and challenging research direction, gradually attracting widespread attention from both academia and industry. Egocentric vision captures visual and multimodal data through cameras or sensors worn on the human body, offering a unique perspective that simulates human visual experiences. This paper provides a comprehensive survey of the research on egocentric vision understanding, systematically analyzing the components of egocentric scenes and categorizing the tasks into four main areas: subject understanding, object understanding, environment understanding, and hybrid understanding. We explore in detail the sub-tasks within each category. We also summarize the main challenges and trends currently existing in the field. Furthermore, this paper presents an overview of high-quality egocentric vision datasets, offering valuable resources for future research. By summarizing the latest advancements, we anticipate the broad applications of egocentric vision technologies in fields such as augmented reality, virtual reality, and embodied intelligence, and propose future research directions based on the latest developments in the field.

arxiv情報

著者 Xiang Li,Heqian Qiu,Lanxiao Wang,Hanwen Zhang,Chenghao Qi,Linfeng Han,Huiyu Xiong,Hongliang Li
発行日 2025-03-19 14:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Challenges and Trends in Egocentric Vision: A Survey はコメントを受け付けていません

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

要約

画像から幾何学的情報と材料情報をキャプチャすることは、コンピュータービジョンとグラフィックスの根本的な課題のままです。
従来の最適化ベースの方法は、照明と材料の間の固有の曖昧さに苦しんでいる一方で、密なマルチビュー入力からの幾何学、材料特性、および環境照明を再構築するために数時間の計算時間を必要とすることがよくあります。
一方、学習ベースのアプローチは、既存の3Dオブジェクトデータセットからの豊富な材料の事前を活用していますが、マルチビューの一貫性を維持する際に課題に直面しています。
この論文では、さまざまな照明の下で任意の数の画像で固有の分解を実行するように設計された拡散ベースのモデルであるIdarbを紹介します。
私たちの方法は、表面の正常と材料特性に関する正確でマルチビューの一貫した推定を実現します。
これは、新しいクロスビュー、クロスドメインの注意モジュール、および照明を備えたビューに適したトレーニング戦略を通じて可能になります。
さらに、ARB-Objaverseを導入します。これは、多様な照明条件の下で大規模なマルチビューの固有データとレンダリングを提供し、堅牢なトレーニングをサポートする新しいデータセットです。
広範な実験は、Idarbが定性的および定量的に最新の方法を上回ることを示しています。
さらに、当社のアプローチは、シングルイメージの学習、測光ステレオ、3D再構成など、さまざまなダウンストリームタスクを促進し、現実的な3Dコンテンツ作成における幅広いアプリケーションを強調しています。

要約(オリジナル)

Capturing geometric and material information from images remains a fundamental challenge in computer vision and graphics. Traditional optimization-based methods often require hours of computational time to reconstruct geometry, material properties, and environmental lighting from dense multi-view inputs, while still struggling with inherent ambiguities between lighting and material. On the other hand, learning-based approaches leverage rich material priors from existing 3D object datasets but face challenges with maintaining multi-view consistency. In this paper, we introduce IDArb, a diffusion-based model designed to perform intrinsic decomposition on an arbitrary number of images under varying illuminations. Our method achieves accurate and multi-view consistent estimation on surface normals and material properties. This is made possible through a novel cross-view, cross-domain attention module and an illumination-augmented, view-adaptive training strategy. Additionally, we introduce ARB-Objaverse, a new dataset that provides large-scale multi-view intrinsic data and renderings under diverse lighting conditions, supporting robust training. Extensive experiments demonstrate that IDArb outperforms state-of-the-art methods both qualitatively and quantitatively. Moreover, our approach facilitates a range of downstream tasks, including single-image relighting, photometric stereo, and 3D reconstruction, highlighting its broad applications in realistic 3D content creation.

arxiv情報

著者 Zhibing Li,Tong Wu,Jing Tan,Mengchen Zhang,Jiaqi Wang,Dahua Lin
発行日 2025-03-19 15:02:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations はコメントを受け付けていません

TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models

要約

テキストから画像への拡張(T2I)であるテキストアンドイメージからイメージ(TI2I)は、画像入力をテキスト指示と統合して画像生成を強化します。
既存のメソッドは、多くの場合、オブジェクトやスタイルなどの特定の要素に焦点を当てた画像入力を部分的に利用するか、複雑でマルチイメージの指示で生成品質の低下を経験します。
これらの課題を克服するために、追加のトレーニングを必要とせずにSD3などの最先端のT2Iモデルを適応させるトレーニングなしのテキストとイメージからイメージ(TF-TI2I)を紹介します。
私たちの方法は、MM-DITアーキテクチャを活用しており、テキストトークンがビジョントークンから視覚情報を暗黙的に学習できることを指摘しています。
参照画像から凝縮された視覚表現を抽出し、参照コンテキストマスキングを通じて選択的情報共有を促進することにより、この相互作用を強化します。この手法により、コンテキストトークンの使用が命令関連の視覚情報に閉じ込められます。
さらに、当社の勝者は、すべてのビジョントークンに最も適切な参照を優先することにより、分布シフトを緩和します。
Ti2i評価のギャップに対処するために、Ti2iに合わせて既存のT2Iメソッドと互換性のある包括的なベンチマークであるFG-Ti2iベンチも導入します。
私たちのアプローチは、さまざまなベンチマークにわたって堅牢なパフォーマンスを示しており、複雑な画像生成タスクの処理における有効性を確認しています。

要約(オリジナル)

Text-and-Image-To-Image (TI2I), an extension of Text-To-Image (T2I), integrates image inputs with textual instructions to enhance image generation. Existing methods often partially utilize image inputs, focusing on specific elements like objects or styles, or they experience a decline in generation quality with complex, multi-image instructions. To overcome these challenges, we introduce Training-Free Text-and-Image-to-Image (TF-TI2I), which adapts cutting-edge T2I models such as SD3 without the need for additional training. Our method capitalizes on the MM-DiT architecture, in which we point out that textual tokens can implicitly learn visual information from vision tokens. We enhance this interaction by extracting a condensed visual representation from reference images, facilitating selective information sharing through Reference Contextual Masking — this technique confines the usage of contextual tokens to instruction-relevant visual information. Additionally, our Winner-Takes-All module mitigates distribution shifts by prioritizing the most pertinent references for each vision token. Addressing the gap in TI2I evaluation, we also introduce the FG-TI2I Bench, a comprehensive benchmark tailored for TI2I and compatible with existing T2I methods. Our approach shows robust performance across various benchmarks, confirming its effectiveness in handling complex image-generation tasks.

arxiv情報

著者 Teng-Fang Hsiao,Bo-Kai Ruan,Yi-Lun Wu,Tzu-Ling Lin,Hong-Han Shuai
発行日 2025-03-19 15:03:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models はコメントを受け付けていません

EdgeRegNet: Edge Feature-based Multimodal Registration Network between Images and LiDAR Point Clouds

要約

クロスモーダルデータ登録は、自律的な運転とロボット工学に広範なアプリケーションを備えたコンピュータービジョンの重要なタスクでした。
正確で堅牢な登録方法は、さまざまなモダリティからのデータを調整し、マルチモーダルセンサーデータの融合の基礎を形成し、知覚システムの精度と信頼性を高めるために不可欠です。
カメラでキャプチャされた2D画像間の登録タスクと、光検出と範囲(LIDAR)センサーによってキャプチャされた3Dポイントクラウドが通常、視覚的なポーズ推定問題として扱われます。
さまざまなモダリティからの高次元の特徴の類似性が活用され、ピクセル点の対応を識別し、その後、最小二乗法を使用したポーズ推定技術が続きます。
ただし、既存のアプローチは、計算上の制約のために元のポイントクラウドと画像データをダウンサンプリングすることに頼ることが多く、必然的に精度の損失につながります。
さらに、さまざまなモダリティからの異なる特徴抽出器を使用して抽出された高次元の特徴には、効果的なマッチングのためにクロスモーダルの違いを緩和するための特定の手法が必要です。
これらの課題に対処するために、元のポイントクラウドからのエッジ情報を使用し、クロスモーダル登録に画像を使用する方法を提案します。
エッジポイントとピクセルを抽出し、計算効率を維持しながら登録の精度を向上させることにより、元のデータから重要な情報を保持します。
エッジポイントとエッジピクセルを使用すると、注意ベースの機能交換ブロックを導入して、クロスモーダルの格差を排除できます。
さらに、対応識別を改善するために最適なマッチング層を組み込みます。
KittiおよびNuscenesデータセットのメソッドの精度を検証し、最先端のパフォーマンスを実証します。

要約(オリジナル)

Cross-modal data registration has long been a critical task in computer vision, with extensive applications in autonomous driving and robotics. Accurate and robust registration methods are essential for aligning data from different modalities, forming the foundation for multimodal sensor data fusion and enhancing perception systems’ accuracy and reliability. The registration task between 2D images captured by cameras and 3D point clouds captured by Light Detection and Ranging (LiDAR) sensors is usually treated as a visual pose estimation problem. High-dimensional feature similarities from different modalities are leveraged to identify pixel-point correspondences, followed by pose estimation techniques using least squares methods. However, existing approaches often resort to downsampling the original point cloud and image data due to computational constraints, inevitably leading to a loss in precision. Additionally, high-dimensional features extracted using different feature extractors from various modalities require specific techniques to mitigate cross-modal differences for effective matching. To address these challenges, we propose a method that uses edge information from the original point clouds and images for cross-modal registration. We retain crucial information from the original data by extracting edge points and pixels, enhancing registration accuracy while maintaining computational efficiency. The use of edge points and edge pixels allows us to introduce an attention-based feature exchange block to eliminate cross-modal disparities. Furthermore, we incorporate an optimal matching layer to improve correspondence identification. We validate the accuracy of our method on the KITTI and nuScenes datasets, demonstrating its state-of-the-art performance.

arxiv情報

著者 Yuanchao Yue,Hui Yuan,Qinglong Miao,Xiaolong Mao,Raouf Hamzaoui,Peter Eisert
発行日 2025-03-19 15:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EdgeRegNet: Edge Feature-based Multimodal Registration Network between Images and LiDAR Point Clouds はコメントを受け付けていません

PAPI-Reg: Patch-to-Pixel Solution for Efficient Cross-Modal Registration between LiDAR Point Cloud and Camera Image

要約

クロスモーダルデータ融合の主な要件は、異なるセンサーからのデータの正確なアラインメントです。
ただし、LIDARポイントクラウドとカメラ画像の間のキャリブレーションは通常、時間がかかり、外部キャリブレーションボードまたは特定の環境機能が必要です。
クロスモーダル登録は、外部キャリブレーションを必要とせずにデータを直接整列させることにより、この問題を効果的に解決します。
ただし、ポイントクラウドと画像間のドメインギャップにより、既存のメソッドはリアルタイムのパフォーマンスを維持しながら満足のいく登録の精度をめったに実現しません。
この問題に対処するために、カメラ画像と一致するためのいくつかの2D表現にポイントクラウドを投影するフレームワークを提案します。これは、ライダーポイントクラウドの幾何学的特性をより効果的に活用するだけでなく、ポイントクラウドと画像の間のドメインギャップを橋渡しします。
さらに、画像マッチングタスクのLidarポイントクラウドと画像の間のクロスモーダルの違いと限られたオーバーラップに取り組むために、マルチスケールの特徴抽出ネットワークを導入して、カメラ画像とLidar Pointクラウドの投影マップの両方から機能を効果的に抽出します。
さらに、パッチ間マッチングネットワークを提案して、より効果的な監督を提供し、より高い精度を達成します。
KittiおよびNuscenesデータセットの実験を通じて、モデルのパフォーマンスを検証します。
当社のネットワークは、リアルタイムのパフォーマンスと非常に高い登録精度を達成します。
Kittiデータセットでは、モデルは99%を超える登録精度率を達成します。

要約(オリジナル)

The primary requirement for cross-modal data fusion is the precise alignment of data from different sensors. However, the calibration between LiDAR point clouds and camera images is typically time-consuming and needs external calibration board or specific environmental features. Cross-modal registration effectively solves this problem by aligning the data directly without requiring external calibration. However, due to the domain gap between the point cloud and the image, existing methods rarely achieve satisfactory registration accuracy while maintaining real-time performance. To address this issue, we propose a framework that projects point clouds into several 2D representations for matching with camera images, which not only leverages the geometric characteristic of LiDAR point clouds more effectively but also bridge the domain gap between the point cloud and image. Moreover, to tackle the challenges of cross modal differences and the limited overlap between LiDAR point clouds and images in the image matching task, we introduce a multi-scale feature extraction network to effectively extract features from both camera images and the projection maps of LiDAR point cloud. Additionally, we propose a patch-to-pixel matching network to provide more effective supervision and achieve higher accuracy. We validate the performance of our model through experiments on the KITTI and nuScenes datasets. Our network achieves real-time performance and extremely high registration accuracy. On the KITTI dataset, our model achieves a registration accuracy rate of over 99\%.

arxiv情報

著者 Yuanchao Yue,Zhengxin Li,Wei Zhang,Hui Yuan
発行日 2025-03-19 15:04:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PAPI-Reg: Patch-to-Pixel Solution for Efficient Cross-Modal Registration between LiDAR Point Cloud and Camera Image はコメントを受け付けていません

Beacon2Science: Enhancing STEREO/HI beacon data1 with machine learning for efficient CME tracking

要約

リアルタイムで冠状質量排出(CME)を観察および予測することは、衛星や電気装置など、潜在的に損傷する効果をもたらすことができる強力な地磁気嵐のために重要です。
ほぼリアルタイムの可用性により、ステレオ/HIビーコンデータは、CMEの早期予測に最適な候補です。
ただし、以前の研究では、ビーコンデータに基づくCME到着予測は、データギャップや品質の低下により、高解像度の科学データと同じ精度を達成できないと結論付けました。
「beacon2science」というタイトルの新しいパイプラインを紹介し、CMEトラッキングを改善するためにビーコンと科学データのギャップを埋めます。
このパイプラインを通じて、最初にビーコンデータの品質(信号対雑音比と空間分解能)を強化します。
次に、科学データの40分の解像度に合わせて、学んだ補間を通じて強化されたビーコン画像の時間分解能を増やします。
さまざまなステップを通じて、モデルアーキテクチャと損失関数を適応した連続フレーム間の情報の一貫性を最大化します。
改善されたビーコン画像は科学データに匹敵し、元のビーコンデータよりもCMEの可視性が向上しています。
さらに、ビーコン、強化されたビーコン、科学画像で追跡されたCMEを比較します。
強化されたビーコンデータから抽出されたトラックは、科学画像からのトラックに近く、元のビーコンデータを使用した$ 1 ^\ circ $と比較して、平均平均誤差は伸びの平均誤差です。
この論文で提示された作品は、徹夜やパンチなどの今後のミッションへの申請への道を開きます。

要約(オリジナル)

Observing and forecasting coronal mass ejections (CME) in real-time is crucial due to the strong geomagnetic storms they can generate that can have a potentially damaging effect, for example, on satellites and electrical devices. With its near-real-time availability, STEREO/HI beacon data is the perfect candidate for early forecasting of CMEs. However, previous work concluded that CME arrival prediction based on beacon data could not achieve the same accuracy as with high-resolution science data due to data gaps and lower quality. We present our novel pipeline entitled ”Beacon2Science”, bridging the gap between beacon and science data to improve CME tracking. Through this pipeline, we first enhance the quality (signal-to-noise ratio and spatial resolution) of beacon data. We then increase the time resolution of enhanced beacon images through learned interpolation to match science data’s 40-minute resolution. We maximize information coherence between consecutive frames with adapted model architecture and loss functions through the different steps. The improved beacon images are comparable to science data, showing better CME visibility than the original beacon data. Furthermore, we compare CMEs tracked in beacon, enhanced beacon, and science images. The tracks extracted from enhanced beacon data are closer to those from science images, with a mean average error of $\sim 0.5 ^\circ$ of elongation compared to $1^\circ$ with original beacon data. The work presented in this paper paves the way for its application to forthcoming missions such as Vigil and PUNCH.

arxiv情報

著者 Justin Le Louëdec,Maike Bauer,Tanja Amerstorfer,Jackie A. Davies
発行日 2025-03-19 15:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, physics.space-ph | Beacon2Science: Enhancing STEREO/HI beacon data1 with machine learning for efficient CME tracking はコメントを受け付けていません

The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition

要約

カメラトラップビデオ映像のコンピュータービジョン分析は、キャプチャされた行動が人口の健康の変化の最も早い指標のいくつかを提供するため、野生生物の保全に不可欠です。
最近、いくつかの衝撃的な動物行動データセットと方法が導入され、それらの使用を促進しています。
ただし、行動相関の背景情報の役割と、分散除外一般化に対するその重要な影響は未開拓のままです。
これに応じて、350を超える個別のカメラの場所で記録された20時間の野生のチンパンジーの動作を特徴とするPanaf-FGBGデータセットを提示します。
ユニークなことに、すべてのビデオを、同じカメラの場所から対応するバックグラウンドビデオ(チンパンジーなし)とチンパンジー(フォアグラウンドビデオと呼ばれる)と組み合わせます。
データセットの2つのビューを示します。1つはカメラの位置が重複し、もう1つは分離場所のあるものです。
このセットアップにより、初めて、分散療法と分散療法条件の直接的な評価、および行動認識モデルに対する背景の影響を定量化することができます。
すべてのクリップには、一意のカメラIDや詳細なテキストシーンの説明など、豊富な行動注釈とメタデータが付属しています。
さらに、いくつかのベースラインを確立し、畳み込み型モデルでは、分散型のパフォーマンスを +5.42%マップ、 +3.75%マップで +5.42%マップで高める非常に効果的な潜在スペース正規化手法を提示します。
最後に、バックグラウンド期間(つまり、前景ビデオ内のバックグラウンドフレームのカウント)を含む、分散外の行動認識における背景の役割に関する詳細な分析を提供します。

要約(オリジナル)

Computer vision analysis of camera trap video footage is essential for wildlife conservation, as captured behaviours offer some of the earliest indicators of changes in population health. Recently, several high-impact animal behaviour datasets and methods have been introduced to encourage their use; however, the role of behaviour-correlated background information and its significant effect on out-of-distribution generalisation remain unexplored. In response, we present the PanAf-FGBG dataset, featuring 20 hours of wild chimpanzee behaviours, recorded at over 350 individual camera locations. Uniquely, it pairs every video with a chimpanzee (referred to as a foreground video) with a corresponding background video (with no chimpanzee) from the same camera location. We present two views of the dataset: one with overlapping camera locations and one with disjoint locations. This setup enables, for the first time, direct evaluation of in-distribution and out-of-distribution conditions, and for the impact of backgrounds on behaviour recognition models to be quantified. All clips come with rich behavioural annotations and metadata including unique camera IDs and detailed textual scene descriptions. Additionally, we establish several baselines and present a highly effective latent-space normalisation technique that boosts out-of-distribution performance by +5.42% mAP for convolutional and +3.75% mAP for transformer-based models. Finally, we provide an in-depth analysis on the role of backgrounds in out-of-distribution behaviour recognition, including the so far unexplored impact of background durations (i.e., the count of background frames within foreground videos).

arxiv情報

著者 Otto Brookes,Maksim Kukushkin,Majid Mirmehdi,Colleen Stephens,Paula Dieguez,Thurston C. Hicks,Sorrel Jones,Kevin Lee,Maureen S. McCarthy,Amelia Meier,Emmanuelle Normand,Erin G. Wessling,Roman M. Wittig,Kevin Langergraber,Klaus Zuberbühler,Lukas Boesch,Thomas Schmid,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt
発行日 2025-03-19 15:11:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition はコメントを受け付けていません

Test-Time Backdoor Detection for Object Detection Models

要約

オブジェクト検出モデルは、予測を操作するために事前定義されたトリガーを埋め込むことにより、攻撃者がトレーニングサンプルの小さなサブセットを毒する、バックドア攻撃に対して脆弱です。
テスト時に毒されたサンプル(つまり、トリガーを含むもの)を検出すると、バックドアの活性化を防ぐことができます。
ただし、画像分類タスクとは異なり、オブジェクト検出のユニークな特性(特に多数のオブジェクトの出力)は、バックドア検出に新たな課題をもたらします。
複雑な攻撃効果(たとえば、「ゴースト」オブジェクトの出現または「消失」オブジェクトなど)は、現在の防御を根本的に不十分にします。
この目的のために、オブジェクト検出のテスト時に毒されたサンプルを検出するための最新の方法である変換の一貫性評価(TRACE)を設計します。
私たちの旅は、2つの興味深い観察から始まります。(1)毒されたサンプルは、さまざまな背景にわたってクリーンなものよりもかなり一貫した検出結果を示します。
(2)クリーンサンプルは、異なる焦点情報に導入された場合、より高い検出一貫性を示します。
これらの現象に基づいて、TRACEは各テストサンプルに前景とバックグラウンドの変換を適用し、オブジェクトの自信の分散を計算することにより、変換の一貫性を評価します。
Traceは、ブラックボックスのユニバーサルバックドア検出を実現し、最先端の防御と適応攻撃に対する抵抗に対するAUROCの30%の改善を示す広範な実験を行います。

要約(オリジナル)

Object detection models are vulnerable to backdoor attacks, where attackers poison a small subset of training samples by embedding a predefined trigger to manipulate prediction. Detecting poisoned samples (i.e., those containing triggers) at test time can prevent backdoor activation. However, unlike image classification tasks, the unique characteristics of object detection — particularly its output of numerous objects — pose fresh challenges for backdoor detection. The complex attack effects (e.g., ‘ghost’ object emergence or ‘vanishing’ object) further render current defenses fundamentally inadequate. To this end, we design TRAnsformation Consistency Evaluation (TRACE), a brand-new method for detecting poisoned samples at test time in object detection. Our journey begins with two intriguing observations: (1) poisoned samples exhibit significantly more consistent detection results than clean ones across varied backgrounds. (2) clean samples show higher detection consistency when introduced to different focal information. Based on these phenomena, TRACE applies foreground and background transformations to each test sample, then assesses transformation consistency by calculating the variance in objects confidences. TRACE achieves black-box, universal backdoor detection, with extensive experiments showing a 30% improvement in AUROC over state-of-the-art defenses and resistance to adaptive attacks.

arxiv情報

著者 Hangtao Zhang,Yichen Wang,Shihui Yan,Chenyu Zhu,Ziqi Zhou,Linshan Hou,Shengshan Hu,Minghui Li,Yanjun Zhang,Leo Yu Zhang
発行日 2025-03-19 15:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Test-Time Backdoor Detection for Object Detection Models はコメントを受け付けていません

DCA: Dividing and Conquering Amnesia in Incremental Object Detection

要約

Incremental Object Detection(IOD)は、以前のクラスでパフォーマンスを維持しながら、新しいクラスを継続的にローカライズおよび認識できるオブジェクト検出器を育成することを目的としています。
既存の方法は、トランスベースの検出フレームワークの知識の蒸留と模範的なリプレイを改善することにより、特定の成功を達成しますが、本質的な忘却メカニズムは未熟なままです。
この論文では、トランスベースのIODにおけるローカリゼーションと認識の間の忘却の不均衡を忘れて発見することを発見します。つまり、ローカリゼーションは忘れられなくなり、将来のクラスに一般化できますが、壊滅的な忘却は主に認識で発生します。
これらの洞察に基づいて、私たちは、変圧器ベースのIODをローカリゼーションの認識プロセスに再設計する分割整理記憶喪失(DCA)戦略を提案します。
DCAはローカリゼーション能力を維持および転送することができ、分離された脆弱な認識を特別に征服することができます。
フィーチャドリフトを認識して削減するために、事前に訓練された言語モデルでエンコードされたセマンティック知識を活用して、インクリメンタルタスク全体で統一された機能空間内にクラス表現を固定します。
これには、デュプレックス分類器の融合を設計し、クラスのセマンティック機能をクエリの形で認識デコードプロセスに埋め込むことが含まれます。
広範な実験では、特に長期的な増分シナリオで、私たちのアプローチが最先端のパフォーマンスを達成することを検証します。
たとえば、MS-CoCoの4段階の設定では、DCA戦略により最終的なAPが6.9%改善されます。

要約(オリジナル)

Incremental object detection (IOD) aims to cultivate an object detector that can continuously localize and recognize novel classes while preserving its performance on previous classes. Existing methods achieve certain success by improving knowledge distillation and exemplar replay for transformer-based detection frameworks, but the intrinsic forgetting mechanisms remain underexplored. In this paper, we dive into the cause of forgetting and discover forgetting imbalance between localization and recognition in transformer-based IOD, which means that localization is less-forgetting and can generalize to future classes, whereas catastrophic forgetting occurs primarily on recognition. Based on these insights, we propose a Divide-and-Conquer Amnesia (DCA) strategy, which redesigns the transformer-based IOD into a localization-then-recognition process. DCA can well maintain and transfer the localization ability, leaving decoupled fragile recognition to be specially conquered. To reduce feature drift in recognition, we leverage semantic knowledge encoded in pre-trained language models to anchor class representations within a unified feature space across incremental tasks. This involves designing a duplex classifier fusion and embedding class semantic features into the recognition decoding process in the form of queries. Extensive experiments validate that our approach achieves state-of-the-art performance, especially for long-term incremental scenarios. For example, under the four-step setting on MS-COCO, our DCA strategy significantly improves the final AP by 6.9%.

arxiv情報

著者 Aoting Zhang,Dongbao Yang,Chang Liu,Xiaopeng Hong,Miao Shang,Yu Zhou
発行日 2025-03-19 15:17:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DCA: Dividing and Conquering Amnesia in Incremental Object Detection はコメントを受け付けていません