Practical Equivalence Testing and Its Application in Synthetic Pre-Crash Scenario Validation

要約

代表的なクラッシュ前シナリオの使用は、シミュレーションによる運転自動化システムの安全性への影響を評価するために重要です。
ただし、合成と現実世界の事前クラッシュシナリオとそれらのクラッシュ特性の類似性の堅牢な評価にはギャップが残っています。
適切な検証がなければ、合成テストシナリオが実際の運転行動とクラッシュ特性を適切に表すことを保証することはできません。
この検証ギャップの理由の1つは、評価範囲を考慮して、合成テストシナリオが実際のシナリオと実質的に同等であることを確認する方法に焦点を合わせていないことです。
有意性テストなどの従来の統計的方法は、同等性を確立するのではなく、違いを検出することに焦点を当てています。
違いを検出できないことは同等性を意味するものではないため、合成前のクラッシュシナリオとクラッシュ特性を検証するための適用性が限られています。
この研究では、実用的な等価性(ロープ)フレームワークのベイジアン領域に基づいて同等のテスト方法を提案することにより、このギャップに対処します。
この方法は、意図された評価に最も関連するシナリオ特性の実用的な同等性を評価するように設計されており、仮想安全性評価のドメインに特に適しています。
まず、既存の同等性テスト方法を確認します。
次に、2つのリアエンド前クラッシュデータセットの等価性をテストすることにより、ベイジアンロープベースの方法を提案および実証します。
私たちのアプローチは、最も関連性の高いシナリオ特性に焦点を当てています。
私たちの分析は、合成テストシナリオの検証における同等性テストの実用性と有効性に関する洞察を提供し、自動化された車両安全評価のための合成データの信頼性を改善するためのテストの重要性と、その後の安全影響評価の信頼性を示しています。

要約(オリジナル)

The use of representative pre-crash scenarios is critical for assessing the safety impact of driving automation systems through simulation. However, a gap remains in the robust evaluation of the similarity between synthetic and real-world pre-crash scenarios and their crash characteristics. Without proper validation, it cannot be ensured that the synthetic test scenarios adequately represent real-world driving behaviors and crash characteristics. One reason for this validation gap is the lack of focus on methods to confirm that the synthetic test scenarios are practically equivalent to real-world ones, given the assessment scope. Traditional statistical methods, like significance testing, focus on detecting differences rather than establishing equivalence; since failure to detect a difference does not imply equivalence, they are of limited applicability for validating synthetic pre-crash scenarios and crash characteristics. This study addresses this gap by proposing an equivalence testing method based on the Bayesian Region of Practical Equivalence (ROPE) framework. This method is designed to assess the practical equivalence of scenario characteristics that are most relevant for the intended assessment, making it particularly appropriate for the domain of virtual safety assessments. We first review existing equivalence testing methods. Then we propose and demonstrate the Bayesian ROPE-based method by testing the equivalence of two rear-end pre-crash datasets. Our approach focuses on the most relevant scenario characteristics. Our analysis provides insights into the practicalities and effectiveness of equivalence testing in synthetic test scenario validation and demonstrates the importance of testing for improving the credibility of synthetic data for automated vehicle safety assessment, as well as the credibility of subsequent safety impact assessments.

arxiv情報

著者 Jian Wu,Ulrich Sander,Carol Flannagan,Minxiang Zhao,Jonas Bärgman
発行日 2025-05-20 06:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Practical Equivalence Testing and Its Application in Synthetic Pre-Crash Scenario Validation はコメントを受け付けていません

Unlabeled Data or Pre-trained Model: Rethinking Semi-Supervised Learning and Pretrain-Finetuning

要約

半教師の学習(SSL)は、非標識データを活用することにより、データラベル付けプロセスのコストを緩和し、画像分類などのさまざまなタスクで有望な結果を達成しています。
一方、プレレイン前獲得のパラダイムは近年かなりの注目を集めており、事前に訓練されたモデルを活用すると、下流タスクのラベル付きデータの要件も削減できます。
したがって、質問が自然に発生します。\ emph {ラベル付きデータがターゲットタスクで不足している場合、ラベル付けされていないデータまたは事前に訓練されたモデルを悪用する必要がありますか?}
使用されるラベル付きデータの量。
さまざまな設定にわたる広範な実験は、データの解像度が低いか明確なセマンティック構造がない場合を除き、ほぼすべての場合に、事前に訓練されたVLMが一般にSSLメソッドを上回ることを示しています。
したがって、将来のSSL研究に、事前に訓練されたモデルと比較し、事前に訓練された知識を使用して擬似標識を強化するなど、より深い統合を探求することを奨励します。
将来の研究をサポートするために、統一された複製と評価のフレームワークをリリースします。
コードは\ href {https://anonymous.4open.science/r/Rethinking-ssl-and-pretrain-finetuning-5566} {ここで}。

要約(オリジナル)

Semi-supervised learning (SSL) alleviates the cost of data labeling process by exploiting unlabeled data, and has achieved promising results on various tasks such as image classification. Meanwhile, the Pretrain-Finetuning paradigm has garnered significant attention in recent years, and exploiting pre-trained models could also reduce the requirement of labeled data in downstream tasks. Therefore, a question naturally occurs: \emph{When the labeled data is scarce in the target tasks, should we exploit unlabeled data or pre-trained models?} To answer this question, we select pre-trained Vision-Language Models (VLMs) as representative pretrain-finetuning instances and propose \textit{Few-shot SSL} — a framework that enables fair comparison between these two paradigms by controlling the amount of labeled data used. Extensive experiments across various settings demonstrate that pre-trained VLMs generally outperform SSL methods in nearly all cases, except when the data has low resolution or lacks clear semantic structure. Therefore, we encourage future SSL research to compare with pre-trained models and explore deeper integration, such as using pre-trained knowledge to enhance pseudo-labeling. To support future research, we release our unified reproduction and evaluation framework. Codes are available \href{https://anonymous.4open.science/r/Rethinking-SSL-and-Pretrain-Finetuning-5566 }{here}.

arxiv情報

著者 Song-Lin Li,Rui Zhu,Yu-Feng Li,Lan-Zhe Guo
発行日 2025-05-20 02:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unlabeled Data or Pre-trained Model: Rethinking Semi-Supervised Learning and Pretrain-Finetuning はコメントを受け付けていません

VisDiff: SDF-Guided Polygon Generation for Visibility Reconstruction and Recognition

要約

組み合わせ構造の豊富な表現をキャプチャする能力により、フロアプラン、地形、画像、アニメーションの分析や生成などのタスクに機械学習を適用することができました。
最近の研究は主に、明確に定義された機能、近隣、または基礎となる距離メトリックを持つ構造を理解することに焦点を当てていますが、そのような特性を欠くものはほとんど研究されていません。
これらの組み合わせ構造の例は、頂点の位置の小さな変化が、可視性または三角測量グラフとして表される組み合わせ構造の大幅な再配置を引き起こすポリゴンに見られます。
現在の表現学習アプローチは、明確に定義された機能や距離メトリックなしで構造をキャプチャできません。
このホワイトペーパーでは、可視性再構成のオープンな問題を検討します。可視性グラフ$ g $を与えられた場合、視認性グラフが$ g $であるポリゴン$ p $を作成します。
入力可視性グラフ$ g $からポリゴン$ p $を生成するための新しい拡散ベースのアプローチであるVisdiffを紹介します。
私たちのアプローチの主な斬新さは、ポリゴンの頂点セットを直接生成するのではなく、最初にポリゴンに関連付けられた署名距離関数(SDF)を推定することです。
次に、SDFを使用して、最終的なポリゴンを表す頂点の位置を抽出します。
SDFを通過することで、VisDiffが頂点の位置を直接生成するよりもはるかに効果的に視界関係を学習できることを示します。
VisDiffをトレーニングするために、慎重にキュレーションされたデータセットを作成します。
このデータセットを使用して、私たちの方法をベンチマークし、標準的な方法と最先端のアプローチよりもF1スコアで26%の改善を達成します。

要約(オリジナル)

The ability to capture rich representations of combinatorial structures has enabled the application of machine learning to tasks such as analysis and generation of floorplans, terrains, images, and animations. Recent work has primarily focused on understanding structures with well-defined features, neighborhoods, or underlying distance metrics, while those lacking such characteristics remain largely unstudied. Examples of these combinatorial structures can be found in polygons, where a small change in the vertex locations causes a significant rearrangement of the combinatorial structure, expressed as a visibility or triangulation graphs. Current representation learning approaches fail to capture structures without well-defined features and distance metrics. In this paper, we study the open problem of Visibility Reconstruction: Given a visibility graph $G$, construct a polygon $P$ whose visibility graph is $G$. We introduce VisDiff, a novel diffusion-based approach to generate polygon $P$ from the input visibility graph $G$. The main novelty of our approach is that, rather than generating the polygon’s vertex set directly, we first estimate the signed distance function (SDF) associated with the polygon. The SDF is then used to extract the vertex location representing the final polygon. We show that going through the SDF allows VisDiff to learn the visibility relationship much more effectively than generating vertex locations directly. In order to train VisDiff, we create a carefully curated dataset. We use this dataset to benchmark our method and achieve 26% improvement in F1-Score over standard methods as well as state of the art approaches.

arxiv情報

著者 Rahul Moorthy,Jun-Jee Chao,Volkan Isler
発行日 2025-05-20 02:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.LG | VisDiff: SDF-Guided Polygon Generation for Visibility Reconstruction and Recognition はコメントを受け付けていません

XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants

要約

AIコーディングアシスタントは、コード生成などのタスクに広く使用されています。
これらのツールには、ファイル、プロジェクト、および貢献者$ \ unicode {x2014} $のさまざまな起源$ \ unicode {x2014} $から自動的に供給された大規模で複雑なコンテキストが必要になり、$ \ unicode {x2014} $基礎となるLLMに供給されるプロンプトの一部が形成されます。
この自動コンテキスト収集により、新しい脆弱性が導入され、攻撃者がアシスタントの出力を妥協するために微妙に入力できるようになり、脆弱なコードを生成したり、重大なエラーを導入したりできます。
私たちは、意味的に同等の敵対的なコードの修正に依存しているため、検出するのが難しい、新しい攻撃、オリジンクロスオリジンコンテキスト中毒(XOXO)を提案します。
従来のプログラム分析手法は、コードのセマンティクスが正しいままであり、合法的に見えるため、これらの摂動を特定するのに苦労しています。
これにより、攻撃者はコーディングアシスタントを操作して誤った出力を生成し、被害者開発者に責任をシフトします。
ケイリーグラフを使用して変換スペースを体系的に検索する新しいタスクに依存しないブラックボックス攻撃アルゴリズムGCGを導入し、一般的なAIコーディングアシスタントが使用するGPT 4.1およびClaude 3.5 Sonnet V2を含む5つのタスクと115モデルで平均75.72%の攻撃成功率を達成します。
さらに、敵対的な微調整のような防御は、私たちの攻撃に対して効果がなく、LLM駆動のコーディングツールでの新しいセキュリティ対策の必要性を強調しています。

要約(オリジナル)

AI coding assistants are widely used for tasks like code generation. These tools now require large and complex contexts, automatically sourced from various origins$\unicode{x2014}$across files, projects, and contributors$\unicode{x2014}$forming part of the prompt fed to underlying LLMs. This automatic context-gathering introduces new vulnerabilities, allowing attackers to subtly poison input to compromise the assistant’s outputs, potentially generating vulnerable code or introducing critical errors. We propose a novel attack, Cross-Origin Context Poisoning (XOXO), that is challenging to detect as it relies on adversarial code modifications that are semantically equivalent. Traditional program analysis techniques struggle to identify these perturbations since the semantics of the code remains correct, making it appear legitimate. This allows attackers to manipulate coding assistants into producing incorrect outputs, while shifting the blame to the victim developer. We introduce a novel, task-agnostic, black-box attack algorithm GCGS that systematically searches the transformation space using a Cayley Graph, achieving a 75.72% attack success rate on average across five tasks and eleven models, including GPT 4.1 and Claude 3.5 Sonnet v2 used by popular AI coding assistants. Furthermore, defenses like adversarial fine-tuning are ineffective against our attack, underscoring the need for new security measures in LLM-powered coding tools.

arxiv情報

著者 Adam Štorek,Mukur Gupta,Noopur Bhatt,Aditya Gupta,Janie Kim,Prashast Srivastava,Suman Jana
発行日 2025-05-20 05:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SE | XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants はコメントを受け付けていません

A Dataless Reinforcement Learning Approach to Rounding Hyperplane Optimization for Max-Cut

要約

最大カット(maxcut)の問題はNP不完全であり、その最適なソリューションを取得することは、最悪の場合はNPハードです。
その結果、ヒューリスティックベースのアルゴリズムが一般的に使用されていますが、その設計には重要なドメインの専門知識が必要になることがよくあります。
最近では、大きな(UN)ラベルのあるデータセットでトレーニングされた学習ベースの方法が提案されています。
ただし、これらのアプローチは、多くの場合、一般化可能性とスケーラビリティに苦労しています。
Maxcutのよく知られている近似アルゴリズムは、Goemans-Williamson(GW)アルゴリズムです。これは、2次非制約のバイナリ最適化(QUBO)の定式化をセミデフィニットプログラム(SDP)に緩和します。
GWアルゴリズムは、ランダムハイパープレーンを均一にサンプリングしてSDPソリューションをバイナリノード割り当てに変換することにより、ハイパープレーンの丸めを適用します。
このホワイトペーパーでは、エージェントがGWアルゴリズムによって生成されたものよりも優れたカットを生成する改善された丸めハイパープレーンを選択することを学ぶことを学ぶことを学ぶ、エピソードではない補強学習の定式化に基づいたトレーニング-DATAフリーアプローチを提案します。
マルコフ決定プロセス(MDP)を最適化することにより、我々の方法は、さまざまな密度と程度分布を備えた大規模なグラフでより良いカットを一貫して達成します。

要約(オリジナル)

The Maximum Cut (MaxCut) problem is NP-Complete, and obtaining its optimal solution is NP-hard in the worst case. As a result, heuristic-based algorithms are commonly used, though their design often requires significant domain expertise. More recently, learning-based methods trained on large (un)labeled datasets have been proposed; however, these approaches often struggle with generalizability and scalability. A well-known approximation algorithm for MaxCut is the Goemans-Williamson (GW) algorithm, which relaxes the Quadratic Unconstrained Binary Optimization (QUBO) formulation into a semidefinite program (SDP). The GW algorithm then applies hyperplane rounding by uniformly sampling a random hyperplane to convert the SDP solution into binary node assignments. In this paper, we propose a training-data-free approach based on a non-episodic reinforcement learning formulation, in which an agent learns to select improved rounding hyperplanes that yield better cuts than those produced by the GW algorithm. By optimizing over a Markov Decision Process (MDP), our method consistently achieves better cuts across large-scale graphs with varying densities and degree distributions.

arxiv情報

著者 Gabriel Malikal,Ismail Alkhouri,Alvaro Velasquez,Adam M Alessio,Saiprasad Ravishankar
発行日 2025-05-20 03:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | A Dataless Reinforcement Learning Approach to Rounding Hyperplane Optimization for Max-Cut はコメントを受け付けていません

Rank, Chunk and Expand: Lineage-Oriented Reasoning for Taxonomy Expansion

要約

分類法は、推奨システムおよびWebアプリケーションに不可欠な階層的な知識グラフです。
データが増えるにつれて、分類法の拡大が不可欠ですが、既存の方法は重要な課題に直面しています。(1)差別的モデルは表現の制限と一般化に苦しんでいますが、(2)生成方法は、すべての候補を一度に処理し、ノイズとコンテキストの制限を超えるか、ノイジー候補を選択して関連するエンティティを破棄します。
lorex($ \ textbf {l} $ ineage-$ \ textbf {o} $ riented $ \ textbf {re} $分類e $ \ textbf {x} $ pansion)は、有効なランキングと有効な拡張のための生成的推論の拡大を組み合わせたプラグアンドプレイフレームワークを組み合わせて提案します。
以前の方法とは異なり、Lorexは候補者の用語をバッチにランク付けし、候補者のフィルタリング、候補者の階層を推論して文脈効率を確保することにより、選択を繰り返し精製します。
4つのベンチマークと12のベースラインにわたる広範な実験により、Lorexが最先端の方法で正確性を12%、Wu&Palmerの類似性を5%改善することが示されています。

要約(オリジナル)

Taxonomies are hierarchical knowledge graphs crucial for recommendation systems, and web applications. As data grows, expanding taxonomies is essential, but existing methods face key challenges: (1) discriminative models struggle with representation limits and generalization, while (2) generative methods either process all candidates at once, introducing noise and exceeding context limits, or discard relevant entities by selecting noisy candidates. We propose LORex ($\textbf{L}$ineage-$\textbf{O}$riented $\textbf{Re}$asoning for Taxonomy E$\textbf{x}$pansion), a plug-and-play framework that combines discriminative ranking and generative reasoning for efficient taxonomy expansion. Unlike prior methods, LORex ranks and chunks candidate terms into batches, filtering noise and iteratively refining selections by reasoning candidates’ hierarchy to ensure contextual efficiency. Extensive experiments across four benchmarks and twelve baselines show that LORex improves accuracy by 12% and Wu & Palmer similarity by 5% over state-of-the-art methods.

arxiv情報

著者 Sahil Mishra,Kumar Arjun,Tanmoy Chakraborty
発行日 2025-05-20 05:05:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Rank, Chunk and Expand: Lineage-Oriented Reasoning for Taxonomy Expansion はコメントを受け付けていません

Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning

要約

最新の大規模な言語モデル(LLMS)は非常に大きなコンテキストをサポートしていますが、コード推論に長いコンテキストを利用する上での有効性は不明のままです。
このペーパーでは、大規模なリポジトリ内のコードスニペットを介したLLMの推論能力と、それがリコール能力との関係を調査します。
具体的には、語彙コードリコール(逐語的検索)とセマンティックコードリコール(コードが何をするかを思い出す)を区別します。
セマンティックリコールを測定するために、semtraceを提案します。これは、出力に対する特定のステートメントの影響が帰属し、予測不可能なコード推論手法です。
また、既存のベンチマークでセマンティックリコール感度を定量化する方法も提示します。
最先端のLLMSの評価は、コードスニペットが入力コンテキストの中央に近づくため、特にSemtraceのような高いセマンティックリコールを必要とする手法で、コードの推論の正確性の大幅な低下を明らかにしています。
さらに、語彙のリコールは粒度によって異なることがわかり、モデルは関数の検索に優れていますが、ラインごとのリコールに苦労しています。
特に、語彙とセマンティックのリコールの間には切断が存在し、異なる根本的なメカニズムを示唆しています。
最後に、我々の調査結果は、現在のコード推論ベンチマークが低セマンティックリコール感度を示し、コンテキスト内情報を活用する際にLLMの課題を過小評価する可能性があることを示しています。

要約(オリジナル)

Although modern Large Language Models (LLMs) support extremely large contexts, their effectiveness in utilizing long context for code reasoning remains unclear. This paper investigates LLM reasoning ability over code snippets within large repositories and how it relates to their recall ability. Specifically, we differentiate between lexical code recall (verbatim retrieval) and semantic code recall (remembering what the code does). To measure semantic recall, we propose SemTrace, a code reasoning technique where the impact of specific statements on output is attributable and unpredictable. We also present a method to quantify semantic recall sensitivity in existing benchmarks. Our evaluation of state-of-the-art LLMs reveals a significant drop in code reasoning accuracy as a code snippet approaches the middle of the input context, particularly with techniques requiring high semantic recall like SemTrace. Moreover, we find that lexical recall varies by granularity, with models excelling at function retrieval but struggling with line-by-line recall. Notably, a disconnect exists between lexical and semantic recall, suggesting different underlying mechanisms. Finally, our findings indicate that current code reasoning benchmarks may exhibit low semantic recall sensitivity, potentially underestimating LLM challenges in leveraging in-context information.

arxiv情報

著者 Adam Štorek,Mukur Gupta,Samira Hajizadeh,Prashast Srivastava,Suman Jana
発行日 2025-05-20 05:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE | Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning はコメントを受け付けていません

Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

要約

拡散変圧器(DITS)は、変圧器アーキテクチャの組み込みを通じて、画像生成の領域内で顕著なパフォーマンスを実現します。
従来、DITは、高解像度の画像を処理する際にかなりの計算コストに直面するシリアル等方性グローバル情報モデリング変圧器を積み重ねて構築されます。
潜在的な空間画像生成は、伝統的に想定されているように、グローバルな情報に強い依存を示さないことを経験的に分析します。
モデルのレイヤーのほとんどは、グローバル計算における冗長性を示しています。
さらに、従来の注意メカニズムは、低周波慣性の問題を示します。
これらの問題に対処するために、\ textbf {p} seudo \ textbf {s} hifted \ textbf {w} indow \ textbf {a} ttention(PSWA)を提案します。
PSWAは、ウィンドウの注意を通じて中間のグローバルローカル情報相互作用を達成し、高周波ブリッジングブランチを使用してシフトされたウィンドウ操作をシミュレートし、適切なグローバルおよび高周波情報を補完します。
さらに、追加の計算コストなしで高次の注意の類似性をキャプチャするプログレッシブカバレッジチャネル割り当て(PCCA)戦略を提案します。
それらのすべてに基づいて、一連のpseudo \ textbf {s} hifted \ textbf {win} dow dits(\ textbf {swin dit})を提案します。
たとえば、提案されているSWIN-DIT-Lは、DIT-XL/2よりも54%$ \ uparrow $ fidの改善を達成しますが、計算は必要ありません。
https://github.com/wujiafu007/swin-dit

要約(オリジナル)

Diffusion Transformers (DiTs) achieve remarkable performance within the domain of image generation through the incorporation of the transformer architecture. Conventionally, DiTs are constructed by stacking serial isotropic global information modeling transformers, which face significant computational cost when processing high-resolution images. We empirically analyze that latent space image generation does not exhibit a strong dependence on global information as traditionally assumed. Most of the layers in the model demonstrate redundancy in global computation. In addition, conventional attention mechanisms exhibit low-frequency inertia issues. To address these issues, we propose \textbf{P}seudo \textbf{S}hifted \textbf{W}indow \textbf{A}ttention (PSWA), which fundamentally mitigates global model redundancy. PSWA achieves intermediate global-local information interaction through window attention, while employing a high-frequency bridging branch to simulate shifted window operations, supplementing appropriate global and high-frequency information. Furthermore, we propose the Progressive Coverage Channel Allocation(PCCA) strategy that captures high-order attention similarity without additional computational cost. Building upon all of them, we propose a series of Pseudo \textbf{S}hifted \textbf{Win}dow DiTs (\textbf{Swin DiT}), accompanied by extensive experiments demonstrating their superior performance. For example, our proposed Swin-DiT-L achieves a 54%$\uparrow$ FID improvement over DiT-XL/2 while requiring less computational. https://github.com/wujiafu007/Swin-DiT

arxiv情報

著者 Jiafu Wu,Yabiao Wang,Jian Li,Jinlong Peng,Yun Cao,Chengjie Wang,Jiangning Zhang
発行日 2025-05-20 03:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Swin DiT: Diffusion Transformer using Pseudo Shifted Windows はコメントを受け付けていません

Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning

要約

プレゼンテーション攻撃の検出とフェイスフォーファリー検出は、それぞれ物理メディアベースのプレゼンテーション攻撃とデジタル編集ベースのディープフェイクからフェイスデータを保護するように設計されています。
しかし、これら2つのモデルの個別のトレーニングにより、それらは未知の攻撃や負担の展開環境に対して脆弱になります。
両方のタイプの攻撃を処理するための統一されたフェイス攻撃検出モデルの欠如は、主に2つの要因によるものです。
まず、モデルが探索するための適切なベンチマークが不足しています。
既存のUADデータセットには、攻撃タイプとサンプルが限られているため、高度な脅威に対処するモデルの能力が制限されています。
これに対処するために、これまでで最も広範で洗練された偽造技術のコレクションであるUniattackdataplus(uniattackdata+)を提案します。
2,875個のアイデンティティと54種類の偽造サンプルが含まれ、合計697,347個のビデオです。
第二に、信頼できる分類基準が不足しています。
現在の方法は、同じセマンティック空間内で任意の基準を見つけようとします。これは、多様な攻撃に遭遇したときに失敗します。
そのため、さまざまなセマンティックスペースからの複数の分類基準を適応的に調査する新しい視覚言語モデルベースの階層プロンプトチューニングフレームワーク(Hiptune)を提示します。
視覚的なプロンプトツリーを構築して、さまざまな分類ルールを階層的に調査します。
次に、プロンプトを適応的に剪定することにより、モデルは最も適切なプロンプトを選択して、エンコーダを誘導して、粗からファインの方法で異なるレベルで識別機能を抽出することができます。
最後に、視覚空間の分類基準をモデルが理解できるようにするために、動的にプロンプ​​トの統合モジュールを提案して、より正確なセマンティクスのために視覚プロンプトをテキストエンコーダに投影します。
12のデータセットでの実験により、UAD分野のさらなるイノベーションを刺激する可能性が示されています。

要約(オリジナル)

Presentation Attack Detection and Face Forgery Detection are designed to protect face data from physical media-based Presentation Attacks and digital editing-based DeepFakes respectively. But separate training of these two models makes them vulnerable to unknown attacks and burdens deployment environments. The lack of a Unified Face Attack Detection model to handle both types of attacks is mainly due to two factors. First, there’s a lack of adequate benchmarks for models to explore. Existing UAD datasets have limited attack types and samples, restricting the model’s ability to address advanced threats. To address this, we propose UniAttackDataPlus (UniAttackData+), the most extensive and sophisticated collection of forgery techniques to date. It includes 2,875 identities and their 54 kinds of falsified samples, totaling 697,347 videos. Second, there’s a lack of a reliable classification criterion. Current methods try to find an arbitrary criterion within the same semantic space, which fails when encountering diverse attacks. So, we present a novel Visual-Language Model-based Hierarchical Prompt Tuning Framework (HiPTune) that adaptively explores multiple classification criteria from different semantic spaces. We build a Visual Prompt Tree to explore various classification rules hierarchically. Then, by adaptively pruning the prompts, the model can select the most suitable prompts to guide the encoder to extract discriminative features at different levels in a coarse-to-fine way. Finally, to help the model understand the classification criteria in visual space, we propose a Dynamically Prompt Integration module to project the visual prompts to the text encoder for more accurate semantics. Experiments on 12 datasets have shown the potential to inspire further innovations in the UAD field.

arxiv情報

著者 Ajian Liu,Haocheng Yuan,Xiao Guo,Hui Ma,Wanyi Zhuang,Changtao Miao,Yan Hong,Chuanbiao Song,Jun Lan,Qi Chu,Tao Gong,Yanyan Liang,Weiqiang Wang,Jun Wan,Xiaoming Liu,Zhen Lei
発行日 2025-05-20 02:07:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning はコメントを受け付けていません

Repurposing Foundation Model for Generalizable Medical Time Series Classification

要約

医療時系列(MEDTS)分類は、さまざまな数のチャネル、信号長、タスク定義、患者の特性など、datatentitentitentitint inter datasetの不均一性による現実世界の展開の一般化が不十分であることに苦しんでいます。
これに対処するために、一般的な時系列で事前に訓練されたバックボーン基礎モデルを再利用するための新しいフレームワークであるFormedを提案し、目に見えないデータセットで非常に一般化可能なMEDTS分類を可能にします。
形成された形成は、バックボーンと2つのコンポーネントを含む新しい分類器を組み合わせています。(1)タスク固有のチャネル埋め込みとラベルクエリ、任意の数のチャネルとターゲットクラスに一致するように動的にサイズ、(2)タスクに触れることの特徴とQuaryの相互作用を通じて医療の知識をキャプチャするためにデータセットを共同でトレーニングします。
再利用後、Formedは、軽量ラベルクエリトレーニング(パラメーターの0.1%)を通じて、目に見えないMEDTSデータセットへのシームレスな適応を実現し、完全な微調整またはアーキテクチャの再設計の必要性を排除します。
5つの多様なMEDTSデータセットで形成された形成を評価し、11のタスク固有モデル(TSM)および4つのタスク固有の適応(TSA)メソッドに対してベンチマークを付けます。
私たちの結果は、Formedの支配的なパフォーマンスを示しており、特殊なベースラインよりもF1スコア(ADFTDデータセット)で最大35%の絶対的な改善を達成しています。
さらなる分析により、さまざまなチャネル構成、時系列の長さ、および臨床タスク全体にわたる一貫した一般化が明らかになります。これは、実際の展開における重要な課題です。
タスク固有の適応から学習を分離することにより、形成されたタスク固有の適応から学習することは、ヘルスケアで再利用する基礎モデルのためのスケーラブルでリソース効率の高いパラダイムを確立します。
このアプローチは、厳格なタスク中心の設計よりも臨床的適応性を優先し、実際の実装のための実用的な経路を提供します。

要約(オリジナル)

Medical time series (MedTS) classification suffers from poor generalizability in real-world deployment due to inter- and intra-dataset heterogeneity, such as varying numbers of channels, signal lengths, task definitions, and patient characteristics. To address this, we propose FORMED, a novel framework for repurposing a backbone foundation model, pre-trained on generic time series, to enable highly generalizable MedTS classification on unseen datasets. FORMED combines the backbone with a novel classifier comprising two components: (1) task-specific channel embeddings and label queries, dynamically sized to match any number of channels and target classes, and (2) a shared decoding attention layer, jointly trained across datasets to capture medical domain knowledge through task-agnostic feature-query interactions. After repurposing, FORMED achieves seamless adaptation to unseen MedTS datasets through lightweight label query training (0.1% of parameters), eliminating the need for full fine-tuning or architectural redesign. We evaluate FORMED on 5 diverse MedTS datasets, benchmarking against 11 Task-Specific Models (TSM) and 4 Task-Specific Adaptation (TSA) methods. Our results demonstrate FORMED’s dominant performance, achieving up to 35% absolute improvement in F1-score (on ADFTD dataset) over specialized baselines. Further analysis reveals consistent generalization across varying channel configurations, time series lengths, and clinical tasks, which are key challenges in real-world deployment. By decoupling domain-invariant representation learning from task-specific adaptation, FORMED establishes a scalable and resource-efficient paradigm for foundation model repurposing in healthcare. This approach prioritizes clinical adaptability over rigid task-centric design, offering a practical pathway for real-world implementation.

arxiv情報

著者 Nan Huang,Haishuai Wang,Zihuai He,Marinka Zitnik,Xiang Zhang
発行日 2025-05-19 17:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Repurposing Foundation Model for Generalizable Medical Time Series Classification はコメントを受け付けていません