Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection

要約

最先端の 3D オブジェクト検出器は、多くの場合、大量のラベル付きデータセットでトレーニングされます。
ただし、3D 境界ボックスに注釈を付けるには、特に LiDAR の場合、依然として法外な費用と時間がかかります。
代わりに、最近の研究では、ラベルなしデータを使用した自己教師あり事前トレーニングにより、限定されたラベルでも検出精度を向上できることが実証されています。
最新の手法は、画像領域から点群までの自己教師あり学習 (対照学習など) のベスト プラクティスを適応させています。
ただし、公的に利用可能な 3D データセットは、画像ベースの自己教師あり学習に使用されるデータセットよりもかなり小さく、多様性が低いため、その有効性は限られています。
ただし、そのような 3D データは自然にマルチモーダルな方法で収集され、画像と組み合わせて収集されることが多いことに注意してください。
自己教師ありの目標のみを使用して事前トレーニングするよりも、インターネット規模のデータでトレーニングされた画像ベースの基礎モデルを使用して点群表現をブートストラップする方が良いと私たちは主張します。
具体的には、ペアのRGBデータとLiDARデータからゼロショット3Dバウンディングボックスを生成するためのシェルフ教師ありアプローチ(たとえば、既製の画像基礎モデルで教師あり)を提案します。
このような疑似ラベルを使用して 3D 検出器を事前トレーニングすると、以前の自己教師あり口実タスクよりも大幅に優れた半教師あり検出精度が得られます。
重要なのは、画像ベースの棚監視が、LiDAR のみ、RGB のみ、およびマルチモーダル (RGB + LiDAR) 検出器のトレーニングに役立つことを示していることです。
私たちは、nuScenes と WOD に対するアプローチの有効性を実証し、限られたデータ設定で以前の作業を大幅に改善しました。
私たちのコードは https://github.com/meharkhurana03/cm3d で入手できます。

要約(オリジナル)

State-of-the-art 3D object detectors are often trained on massive labeled datasets. However, annotating 3D bounding boxes remains prohibitively expensive and time-consuming, particularly for LiDAR. Instead, recent works demonstrate that self-supervised pre-training with unlabeled data can improve detection accuracy with limited labels. Contemporary methods adapt best-practices for self-supervised learning from the image domain to point clouds (such as contrastive learning). However, publicly available 3D datasets are considerably smaller and less diverse than those used for image-based self-supervised learning, limiting their effectiveness. We do note, however, that such 3D data is naturally collected in a multimodal fashion, often paired with images. Rather than pre-training with only self-supervised objectives, we argue that it is better to bootstrap point cloud representations using image-based foundation models trained on internet-scale data. Specifically, we propose a shelf-supervised approach (e.g. supervised with off-the-shelf image foundation models) for generating zero-shot 3D bounding boxes from paired RGB and LiDAR data. Pre-training 3D detectors with such pseudo-labels yields significantly better semi-supervised detection accuracy than prior self-supervised pretext tasks. Importantly, we show that image-based shelf-supervision is helpful for training LiDAR-only, RGB-only and multi-modal (RGB + LiDAR) detectors. We demonstrate the effectiveness of our approach on nuScenes and WOD, significantly improving over prior work in limited data settings. Our code is available at https://github.com/meharkhurana03/cm3d

arxiv情報

著者 Mehar Khurana,Neehar Peri,James Hays,Deva Ramanan
発行日 2024-10-15 14:54:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection はコメントを受け付けていません

Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text

要約

現在、手書きテキストのシーケンス構造の破壊が、認識タスクを制限する主なボトルネックの 1 つとなっています。
典型的な状況には、追加の特定のマーカー (テキストの交換変更) や、削除、置換、挿入などの文字変更によって引き起こされるテキストの重複が含まれます。
この論文では、上記のテキストに対して構造知識と深層モデルを組み合わせた 2 段階の検出アルゴリズムを提案します。
まず、手書きのテキスト画像からさまざまな構造のプロトタイプを大まかに特定します。
第 1 段階の検出結果に基づいて、第 2 段階では異なる戦略を採用します。
具体的には、新しい半教師ありコントラストトレーニング戦略によってトレーニングされた形状回帰ネットワークが導入され、キャラクター間の位置関係が最大限に活用されます。
2 つの手書きテキスト データセットでの実験により、提案された方法により検出パフォーマンスが大幅に向上することが示されました。
新しいデータセットは https://github.com/Wukong90 で入手できます。

要約(オリジナル)

Currently, the destruction of the sequence structure in handwritten text has become one of the main bottlenecks restricting the recognition task. The typical situations include additional specific markers (the text swapping modification) and the text overlap caused by character modifications like deletion, replacement, and insertion. In this paper, we propose a two-stage detection algorithm that combines structure knowledge and deep models for the above mentioned text. Firstly, different structure prototypes are roughly located from handwritten text images. Based on the detection results of the first stage, in the second stage, we adopt different strategies. Specifically, a shape regression network trained by a novel semi-supervised contrast training strategy is introduced and the positional relationship between the characters is fully employed. Experiments on two handwritten text datasets show that the proposed method can greatly improve the detection performance. The new dataset is available at https://github.com/Wukong90.

arxiv情報

著者 Zi-Rui Wang
発行日 2024-10-15 14:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text はコメントを受け付けていません

Teaching AI Agents to Search with Reflective-MCTS and Exploratory Learning

要約

自律エージェントは、複雑な複数ステップの意思決定タスクを自動化する上で大きな可能性を示しています。
ただし、GPT-4o などの最先端のビジョン言語モデル (VLM) でさえ、特に複雑な Web 環境や長期的な計画タスクでは依然として人間レベルのパフォーマンスには達していません。
これらの制限に対処するために、エージェント アプリケーション用の o1 のようなモデルを構築するための Reflective Monte Carlo Tree Search (R-MCTS) と探索学習を紹介します。
まず、AI エージェントがその場で意思決定空間を探索する能力を強化するように設計された新しいテスト時アルゴリズムである R-MCTS を紹介します。
R-MCTS は、1) コントラスト反射を組み込むことにより、従来の MCTS を拡張します。これにより、エージェントは過去の対話から学習し、検索効率を動的に向上させることができます。
2) マルチエージェントの議論を使用して、信頼性の高い状態評価を提供します。
次に、外部の検索アルゴリズムに依存せずに推論時に検索するようにエージェントに教える新しい学習戦略である探索学習を紹介します。
困難な VisualWebArena ベンチマークでは、GPT-4o ベースの R-MCTS エージェントは、以前の最先端のものと比較して、さまざまなタスクにわたって 6% ~ 30% の相対的な向上を達成しました。
さらに、テスト時の検索から得た経験を、微調整によって効果的に GPT-4o に戻すことができることを示します。
探索的学習の後、GPT-4o は、1) 環境を探索し、状態を評価し、現在の状態では成功につながらないことを検出した場合に実行可能な状態に後戻りする能力を実証し、2) R-MCTS のパフォーマンスの 87% と一致します。
使用するコンピューティングが大幅に削減されます。
特に、私たちの研究は、トレーニング (R-MCTS によるデータ収集) とテスト時間の両方におけるコンピューティング スケーリング プロパティを実証しています。
これらの結果は、テスト時の検索と自己学習を通じて、エージェント アプリケーションに対する VLM の推論と計画能力を強化するという有望な研究の方向性を示唆しています。

要約(オリジナル)

Autonomous agents have demonstrated significant potential in automating complex multistep decision-making tasks. However, even state-of-the-art vision-language models (VLMs), such as GPT-4o, still fall short of human-level performance, particularly in intricate web environments and long-horizon planning tasks. To address these limitations, we present Reflective Monte Carlo Tree Search (R-MCTS) and Exploratory Learning to build o1-like models for agentic applications. We first introduce R-MCTS, a novel test-time algorithm designed to enhance the ability of AI agents to explore decision space on the fly. R-MCTS extends traditional MCTS by 1) incorporating contrastive reflection, allowing agents to learn from past interactions and dynamically improve their search efficiency; and 2) using multi-agent debate to provide reliable state evaluation. Next, we introduce Exploratory Learning, a novel learning strategy to teach agents to search at inference time without relying on any external search algorithms. On the challenging VisualWebArena benchmark, our GPT-4o-based R-MCTS agent achieves a 6% to 30% relative improvement across various tasks compared to the previous state-of-the-art. Additionally, we show that the experience gained from test-time search can be effectively transferred back to GPT-4o via fine-tuning. After Exploratory Learning, GPT-4o 1) demonstrates the ability to explore the environment, evaluate a state, and backtrack to viable ones when it detects that the current state cannot lead to success, and 2) matches 87% of R-MCTS’s performance while using significantly less compute. Notably, our work demonstrates the compute scaling properties in both training – data collection with R-MCTS – and testing time. These results suggest a promising research direction to enhance VLMs’ reasoning and planning capabilities for agentic applications via test-time search and self-learning.

arxiv情報

著者 Xiao Yu,Baolin Peng,Vineeth Vajipey,Hao Cheng,Michel Galley,Jianfeng Gao,Zhou Yu
発行日 2024-10-15 14:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Teaching AI Agents to Search with Reflective-MCTS and Exploratory Learning はコメントを受け付けていません

Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

要約

Text-to-Image(TTI)生成モデルは目覚ましい成功を収めているにもかかわらず、既存の研究では、これらのモデルが事実の情報を正確に伝えるかどうかという問題が見落とされています。
この論文では、生成モデルによって作成された画像が事実の内容を忠実に描写できないという幻覚の問題に焦点を当てます。
これに対処するために、視覚的質問応答 (VQA) を通じて生成された画像の事実性を測定する新しい自動評価指標である I-HallA (質問応答による幻覚評価) を導入します。
また、この目的のために厳選されたベンチマーク データセットである I-HallA v1.0 も紹介します。
このプロセスの一環として、精度を確保するために人間の判断を加えながら、複数の GPT-4 Omni ベースのエージェントを使用して高品質の質問と回答のペアを生成するパイプラインを開発します。
当社の評価プロトコルは、既存のテキストから画像へのモデルからの画像がこれらの質問に正しく応答できるかどうかをテストすることにより、幻覚画像を測定します。
I-HallA v1.0 データセットは、9 つ​​のカテゴリにわたる 1.2K の多様な画像とテキストのペアで構成されており、さまざまな構成上の課題をカバーする 1,000 個の厳密に精選された質問が含まれています。
私たちは、I-HallA を使用して 5 つのテキストから画像へのモデルを評価し、これらの最先端のモデルが事実情報を正確に伝えられないことが多いことを明らかにしました。
さらに、人間の判断との強いスピアマン相関 (rho=0.95) を実証することで、指標の信頼性を検証します。
私たちは、ベンチマーク データセットと指標が、事実に基づいて正確なテキストから画像への生成モデルを開発するための基盤として機能すると信じています。

要約(オリジナル)

Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models.

arxiv情報

著者 Youngsun Lim,Hojun Choi,Hyunjung Shim
発行日 2024-10-15 15:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering はコメントを受け付けていません

SurFhead: Affine Rig Blending for Geometrically Accurate 2D Gaussian Surfel Head Avatars

要約

ガウス プリミティブを使用した頭部アバター レンダリングの最近の進歩により、非常に忠実度の高い結果が得られました。
正確な頭部ジオメトリは、メッシュの再構築や再照明などのアプリケーションにとって重要ですが、現在の方法では、相似変換に依存しているため、複雑な幾何学的詳細をキャプチャし、目に見えないポーズをレンダリングするのが困難であり、ジオメトリの詳細な変形に不可欠なストレッチ変換とせん断変換を処理できません。
これに対処するために、私たちは SurFhead を提案します。これは、2D ガウス サーフェルを使用して RGB ビデオからリグ可能なヘッド ジオメトリを再構築する新しい方法です。これは、固定光線の交差からの正確な深さや、表面の向きから導出される法線など、明確に定義された幾何学的特性を提供します。
3D 対応物よりも有利です。
SurFhead は、古典的なメッシュベースの変形転送とアフィン変換補間を活用することにより、極端なポーズであっても、法線と画像の両方の高忠実度のレンダリングを保証します。
SurFhead は、法線に影響を与える変換を含む変換の極分解を通じて、正確な幾何学的変形を導入し、サーフェルをブレンドします。
私たちの主な貢献は、メッシュベースの変形などの古典的なグラフィックス技術と現代のガウス プリミティブを橋渡しし、最先端のジオメトリの再構築とレンダリング品質を実現することにあります。
以前のアバター レンダリング アプローチとは異なり、SurFhead では、高忠実度のジオメトリを維持しながら、ガウス プリミティブによる効率的な再構築が可能になります。

要約(オリジナル)

Recent advancements in head avatar rendering using Gaussian primitives have achieved significantly high-fidelity results. Although precise head geometry is crucial for applications like mesh reconstruction and relighting, current methods struggle to capture intricate geometric details and render unseen poses due to their reliance on similarity transformations, which cannot handle stretch and shear transforms essential for detailed deformations of geometry. To address this, we propose SurFhead, a novel method that reconstructs riggable head geometry from RGB videos using 2D Gaussian surfels, which offer well-defined geometric properties, such as precise depth from fixed ray intersections and normals derived from their surface orientation, making them advantageous over 3D counterparts. SurFhead ensures high-fidelity rendering of both normals and images, even in extreme poses, by leveraging classical mesh-based deformation transfer and affine transformation interpolation. SurFhead introduces precise geometric deformation and blends surfels through polar decomposition of transformations, including those affecting normals. Our key contribution lies in bridging classical graphics techniques, such as mesh-based deformation, with modern Gaussian primitives, achieving state-of-the-art geometry reconstruction and rendering quality. Unlike previous avatar rendering approaches, SurFhead enables efficient reconstruction driven by Gaussian primitives while preserving high-fidelity geometry.

arxiv情報

著者 Jaeseong Lee,Taewoong Kang,Marcel C. Bühler,Min-Jung Kim,Sungwon Hwang,Junha Hyung,Hyojin Jang,Jaegul Choo
発行日 2024-10-15 15:19:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | SurFhead: Affine Rig Blending for Geometrically Accurate 2D Gaussian Surfel Head Avatars はコメントを受け付けていません

Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision

要約

人間は、多くの動物種と同様に、視覚的なシーン内のオブジェクトの数を認識し、おおよそ表現する能力を持っています。
この能力は幼少期を通じて向上し、学習と発達が私たちの数の感覚を形成する上で重要な役割を果たすことを示唆しています。
この仮説は、深層学習に基づいた計算による研究によってさらに裏付けられており、さまざまな数のアイテムを含む画像の統計的構造を学習するニューラル ネットワークでは、数の知覚が自発的に現れる可能性があることが示されています。
しかし、ニューラル ネットワーク モデルは、通常、自然環境の統計構造を忠実に反映していない可能性がある合成データセットを使用してトレーニングされており、人間の数の知覚を調査するために、より生態学的視覚刺激を使用することへの関心も高まっています。
この研究では、コンピューター ビジョン アルゴリズムの最近の進歩を利用して、日常生活の状況でオブジェクトを描写する何千もの実際の画像を含む大規模なデータセット内の数値と非数値の大きさの分布を推定するために使用できるオリジナルのパイプラインを設計および実装します。

自然な視覚シーンでは、さまざまな数値の出現頻度がべき乗則分布に従うことを示します。
さらに、数と連続的な大きさの相関構造が、データセットとシーン タイプ (同種のオブジェクト セットと異種のオブジェクト セット) にわたって安定していることを示します。
このような共分散の「生態学的」パターンを考慮することは、数性の判断に対する非数値的な視覚的手がかりの影響を理解するために重要であることを提案します。

要約(オリジナル)

Humans share with many animal species the ability to perceive and approximately represent the number of objects in visual scenes. This ability improves throughout childhood, suggesting that learning and development play a key role in shaping our number sense. This hypothesis is further supported by computational investigations based on deep learning, which have shown that numerosity perception can spontaneously emerge in neural networks that learn the statistical structure of images with a varying number of items. However, neural network models are usually trained using synthetic datasets that might not faithfully reflect the statistical structure of natural environments, and there is also growing interest in using more ecological visual stimuli to investigate numerosity perception in humans. In this work, we exploit recent advances in computer vision algorithms to design and implement an original pipeline that can be used to estimate the distribution of numerosity and non-numerical magnitudes in large-scale datasets containing thousands of real images depicting objects in daily life situations. We show that in natural visual scenes the frequency of appearance of different numerosities follows a power law distribution. Moreover, we show that the correlational structure for numerosity and continuous magnitudes is stable across datasets and scene types (homogeneous vs. heterogeneous object sets). We suggest that considering such ‘ecological’ pattern of covariance is important to understand the influence of non-numerical visual cues on numerosity judgements.

arxiv情報

著者 Kuinan Hou,Marco Zorzi,Alberto Testolin
発行日 2024-10-15 15:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision はコメントを受け付けていません

A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem

要約

事前トレーニングされた視覚言語基礎モデルの出現は、ゼロ/少数ショット (つまり、ローショット) 画像認識の分野に革命をもたらしました。
限られたトレーニング データの条件下で取り組むべき重要な課題は、パラメータ効率の高い方法で事前トレーニング済みの視覚言語モデルを微調整する方法です。
これまで、この課題に取り組む多くのアプローチが提案されてきました。
同時に、これらの研究を要約するいくつかの調査論文も出版されています。
しかし、既存の手法を統合し、その性質を特定し、詳細な比較をサポートするための統一された計算フレームワークがまだ不足しています。
そのため、この調査論文では、まず代表者定理の観点から統一的な計算フレームワークを提案し、次にこのフレームワークを特殊化することで既存の手法の多くを導き出します。
その後、既存の手法間の違いや関係を明らかにするために比較分析が行われます。
分析に基づいて、既存の作品を改善するためのいくつかの可能な変形が提示されます。
デモンストレーションとして、カーネル ヒルベルト空間 (RKHS) の再現における表現者間のクラス間相関をモデル化することで既存の手法を拡張します。これは、カーネル リッジ回帰の閉形式解を利用することによって実装されます。
この手法の有効性を検証するために、11 のデータセットに対する広範な実験が行われています。
この文書の終わりに向けて、その限界について説明し、さらなる研究の方向性を示します。

要約(オリジナル)

The advent of pre-trained vision-language foundation models has revolutionized the field of zero/few-shot (i.e., low-shot) image recognition. The key challenge to address under the condition of limited training data is how to fine-tune pre-trained vision-language models in a parameter-efficient manner. Previously, numerous approaches tackling this challenge have been proposed. Meantime, a few survey papers are also published to summarize these works. However, there still lacks a unified computational framework to integrate existing methods together, identify their nature and support in-depth comparison. As such, this survey paper first proposes a unified computational framework from the perspective of Representer Theorem and then derives many of the existing methods by specializing this framework. Thereafter, a comparative analysis is conducted to uncover the differences and relationships between existing methods. Based on the analyses, some possible variants to improve the existing works are presented. As a demonstration, we extend existing methods by modeling inter-class correlation between representers in reproducing kernel Hilbert space (RKHS), which is implemented by exploiting the closed-form solution of kernel ridge regression. Extensive experiments on 11 datasets are conducted to validate the effectiveness of this method. Toward the end of this paper, we discuss the limitations and provide further research directions.

arxiv情報

著者 Kun Ding,Ying Wang,Gaofeng Meng,Shiming Xiang
発行日 2024-10-15 15:22:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem はコメントを受け付けていません

Visual Fixation-Based Retinal Prosthetic Simulation

要約

この研究では、サッケード機構にヒントを得て、視覚固視によって駆動される人工網膜シミュレーション フレームワークを提案し、分類タスクにおけるエンドツーエンドの最適化を通じてパフォーマンスの向上を評価します。
顕著なパッチは、視覚変換器の自己注意マップを使用して入力画像から予測され、固視を模倣します。
これらのパッチは、トレーニング可能な U-Net によってエンコードされ、pulse2percept フレームワークを使用してシミュレートされ、視覚知覚を予測します。
学習可能なエンコーダを組み込むことで、網膜インプラントに送信される視覚情報を最適化し、電極アレイの限られた解像度と、入力刺激と結果として生じるホスフェンの間の歪みの両方に対処することを目指しています。
予測された知覚は、分類精度を高めるためのオプションの学習可能な線形レイヤーを使用して、自己教師あり DINOv2 基礎モデルを使用して評価されます。
ImageNet 検証セットのサブセットでは、固視ベースのフレームワークは、実際の被験者の生理学的データに基づく計算パラメーターを使用して 87.72% の分類精度を達成し、ダウンサンプリングベースの精度 40.59% を大幅に上回り、分類精度の健全な上限に近づいています。
92.76%。
私たちのアプローチは、人工網膜で利用できる限られた解像度で、より意味的に理解可能な知覚を生み出す有望な可能性を示しています。

要約(オリジナル)

This study proposes a retinal prosthetic simulation framework driven by visual fixations, inspired by the saccade mechanism, and assesses performance improvements through end-to-end optimization in a classification task. Salient patches are predicted from input images using the self-attention map of a vision transformer to mimic visual fixations. These patches are then encoded by a trainable U-Net and simulated using the pulse2percept framework to predict visual percepts. By incorporating a learnable encoder, we aim to optimize the visual information transmitted to the retinal implant, addressing both the limited resolution of the electrode array and the distortion between the input stimuli and resulting phosphenes. The predicted percepts are evaluated using the self-supervised DINOv2 foundation model, with an optional learnable linear layer for classification accuracy. On a subset of the ImageNet validation set, the fixation-based framework achieves a classification accuracy of 87.72%, using computational parameters based on a real subject’s physiological data, significantly outperforming the downsampling-based accuracy of 40.59% and approaching the healthy upper bound of 92.76%. Our approach shows promising potential for producing more semantically understandable percepts with the limited resolution available in retinal prosthetics.

arxiv情報

著者 Yuli Wu,Do Dinh Tan Nguyen,Henning Konermann,Rüveyda Yilmaz,Peter Walter,Johannes Stegmaier
発行日 2024-10-15 15:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.NE | Visual Fixation-Based Retinal Prosthetic Simulation はコメントを受け付けていません

Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor

要約

データポイズニング バックドア攻撃は、機械学習モデルに対する重大なセキュリティ上の脅威であり、攻撃者がトレーニング データセットを操作してモデルにバックドアを挿入する可能性があります。
このペーパーでは、データセットが汚染されている可能性がある場合でもクリーンなモデルをトレーニングすることを目的として、トレーニング中のバックドア防御に焦点を当てています。
悪意のあるバックドア攻撃を軽減するために、主に疑わしいサンプルを検出して削除/学習解除する既存のほとんどの方法とは異なり、PDB (Proactive Defensive Backdoor) と呼ばれる新しい防御アプローチを提案します。
具体的には、PDB は、トレーニング中にモデルに防御的なバックドアを積極的に挿入することで、守備側のホームフィールドの利点を活用します。
防御的バックドアは、トレーニング プロセスの制御を利用して、攻撃者に対して秘密を保ちながら、悪意のあるバックドアを効果的に抑制するように設計されています。
さらに、防御ターゲットのラベルを決定するための可逆マッピングを導入します。
推論中、PDB は入力に防御トリガーを埋め込み、モデルの予測を逆にして、悪意のあるバックドアを抑制し、元のタスクでのモデルの有用性を確保します。
さまざまなデータセットとモデルにわたる実験結果は、私たちのアプローチが広範なバックドア攻撃に対して最先端の防御パフォーマンスを達成していることを示しています。
コードは https://github.com/shawkui/Proactive_Defensive_Backdoor で入手できます。

要約(オリジナル)

Data-poisoning backdoor attacks are serious security threats to machine learning models, where an adversary can manipulate the training dataset to inject backdoors into models. In this paper, we focus on in-training backdoor defense, aiming to train a clean model even when the dataset may be potentially poisoned. Unlike most existing methods that primarily detect and remove/unlearn suspicious samples to mitigate malicious backdoor attacks, we propose a novel defense approach called PDB (Proactive Defensive Backdoor). Specifically, PDB leverages the home-field advantage of defenders by proactively injecting a defensive backdoor into the model during training. Taking advantage of controlling the training process, the defensive backdoor is designed to suppress the malicious backdoor effectively while remaining secret to attackers. In addition, we introduce a reversible mapping to determine the defensive target label. During inference, PDB embeds a defensive trigger in the inputs and reverses the model’s prediction, suppressing malicious backdoor and ensuring the model’s utility on the original task. Experimental results across various datasets and models demonstrate that our approach achieves state-of-the-art defense performance against a wide range of backdoor attacks. The code is available at https://github.com/shawkui/Proactive_Defensive_Backdoor.

arxiv情報

著者 Shaokui Wei,Hongyuan Zha,Baoyuan Wu
発行日 2024-10-15 15:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor はコメントを受け付けていません

POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search

要約

顔ランドマーク検出 (FLD) では、精度と効率のバランスを達成することが重要な課題です。
このペーパーでは、従来の FLD 手法の根本的な制限に対処するために設計された高精度のエンコード/デコード フレームワークである Parallel Optimal Position Search (POPoS) を紹介します。
POPoS は 3 つの重要なイノベーションを採用しています。 (1) 擬似距離マルチラテレーションを利用してヒートマップ エラーを修正し、ランドマーク位置特定の精度を高めます。
このアプローチでは、複数のアンカー ポイントを統合することで、個々のヒートマップの不正確さの影響が最小限に抑えられ、全体的な位置決めが堅牢になります。
(2) 選択されたアンカー ポイントの擬似距離精度を向上させるために、マルチラテレーション アンカー損失と呼ばれる新しい損失関数が提案されます。
この損失関数は、距離マップの精度を効果的に高め、局所最適のリスクを軽減し、最適なソリューションを保証します。
(3) シングルステップ並列計算アルゴリズムが導入され、計算効率が大幅に向上し、処理時間が短縮されます。
5 つのベンチマーク データセットにわたる包括的な評価では、POPoS が既存の手法より一貫して優れたパフォーマンスを示し、特に計算オーバーヘッドを最小限に抑えた低解像度のシナリオで優れていることが実証されています。
これらの機能により、POPoS は FLD 用の非常に効率的かつ正確なツールとして確立され、現実世界のシナリオに幅広く適用できます。
コードは https://github.com/teslatasy/PoPoS で入手できます。

要約(オリジナル)

Achieving a balance between accuracy and efficiency is a critical challenge in facial landmark detection (FLD). This paper introduces the Parallel Optimal Position Search (POPoS), a high-precision encoding-decoding framework designed to address the fundamental limitations of traditional FLD methods. POPoS employs three key innovations: (1) Pseudo-range multilateration is utilized to correct heatmap errors, enhancing the precision of landmark localization. By integrating multiple anchor points, this approach minimizes the impact of individual heatmap inaccuracies, leading to robust overall positioning. (2) To improve the pseudo-range accuracy of selected anchor points, a new loss function, named multilateration anchor loss, is proposed. This loss function effectively enhances the accuracy of the distance map, mitigates the risk of local optima, and ensures optimal solutions. (3) A single-step parallel computation algorithm is introduced, significantly enhancing computational efficiency and reducing processing time. Comprehensive evaluations across five benchmark datasets demonstrate that POPoS consistently outperforms existing methods, particularly excelling in low-resolution scenarios with minimal computational overhead. These features establish POPoS as a highly efficient and accurate tool for FLD, with broad applicability in real-world scenarios. The code is available at https://github.com/teslatasy/PoPoS

arxiv情報

著者 Chong-Yang Xiang,Jun-Yan He,Zhi-Qi Cheng,Xiao Wu,Xian-Sheng Hua
発行日 2024-10-15 15:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search はコメントを受け付けていません