WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales

要約

ハイステークス設定で人工知能(AI) /機械学習(ML)システムを責任を持って展開するには、間違いなくシステムの信頼性の証明だけでなく、安全でない動作を迅速に検出および対処するための継続的な展開後の監視が必要です。
ノンパラメトリック変化点検出のための統計的方法 – 特に、コンフォーマルテストマルチンゲール(CTMS)のツールといつでも検証された推論 – は、この監視タスクに対する有望なアプローチを提供します。
ただし、既存の方法は、限られた仮説クラスまたは「アラーム基準」(特定の交換可能性の仮定に違反するデータシフトなど)の監視に限定されているため、シフトに応じてオンライン適応を許可しません。
このホワイトペーパーでは、偽のアラームを制御しながらデータ分布の予期しない変更点のオンライン監視の理論的基盤を築くための理論的基盤を築くコンフォーマルテストマルチンゲール(WCTM)の加重一般化を提案することにより、これらの監視方法の範囲を拡大します。
実用的なアプリケーションでは、軽度の共変量シフト(限界入力分布)にオンラインで適応する特定のWCTMアルゴリズムを提案し、概念シフト(条件付きラベル分布)や極端な(サポート外)の共変化シフトなどのより深刻なシフトを迅速に検出および診断します。
実際のデータセットでは、最先端のベースラインと比較してパフォーマンスの向上を示します。

要約(オリジナル)

Responsibly deploying artificial intelligence (AI) / machine learning (ML) systems in high-stakes settings arguably requires not only proof of system reliability, but moreover continual, post-deployment monitoring to quickly detect and address any unsafe behavior. Statistical methods for nonparametric change-point detection — especially the tools of conformal test martingales (CTMs) and anytime-valid inference — offer promising approaches to this monitoring task. However, existing methods are restricted to monitoring limited hypothesis classes or “alarm criteria” (such as data shifts that violate certain exchangeability assumptions), do not allow for online adaptation in response to shifts, and/or do not enable root-cause analysis of any degradation. In this paper, we expand the scope of these monitoring methods by proposing a weighted generalization of conformal test martingales (WCTMs), which lay a theoretical foundation for online monitoring for any unexpected changepoints in the data distribution while controlling false-alarms. For practical applications, we propose specific WCTM algorithms that adapt online to mild covariate shifts (in the marginal input distribution) while quickly detecting and diagnosing more severe shifts, such as concept shifts (in the conditional label distribution) or extreme (out-of-support) covariate shifts that cannot be easily adapted to. On real-world datasets, we demonstrate improved performance relative to state-of-the-art baselines.

arxiv情報

著者 Drew Prinster,Xing Han,Anqi Liu,Suchi Saria
発行日 2025-05-12 17:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales はコメントを受け付けていません

A Comparative Analysis of Static Word Embeddings for Hungarian

要約

このペーパーでは、Word2Vec、FastTextなどの従来のモデルや、異なる抽出方法を使用したBERTベースのモデルから派生した静的な埋め込みなど、ハンガリー語のさまざまな静的ワード埋め込みの包括的な分析を紹介します。
これらの埋め込みを内因性タスクと外因性タスクの両方に評価して、そのパフォーマンスの全体的な見方を提供します。
本質的な評価には、セマンティックと構文の関係をキャプチャする埋め込み能力を評価する単語の類推タスクを採用します。
私たちの結果は、従来の静的埋め込み、特に高速テキストがこのタスクに優れており、高精度と平均相互ランク(MRR)スコアを達成することを示しています。
BERTベースのモデルの中で、静的埋め込みを抽出するためのX2static方法は、従来の静的埋め込みの有効性に近づく、脱文脈化された凝集法と比較して優れた性能を示します。
外因性評価のために、双方向LSTMモデルを利用して、名前付きエンティティ認識(NER)と一部のスピーチ(POS)タグ付けタスクを実行します。
結果は、動的モデル、特にx2staticメソッドを使用して抽出された動的モデルから導出された埋め込みが、純粋に静的な埋め込みを上回ることを明らかにしています。
特に、ELMO埋め込みは、NERとPOSの両方のタグ付けタスクで最高の精度を達成し、静的な形式で使用しても、文脈化された表現の利点を強調しています。
私たちの調査結果は、NLPアプリケーションにおける静的な単語埋め込みの継続的な関連性と、BERTベースのモデルの有用性を高めるための高度な抽出方法の可能性を強調しています。
この研究は、ハンガリー語にパフォーマンスを埋め込むことの理解に貢献し、この分野での将来の発展に関する貴重な洞察を提供します。
トレーニングスクリプト、評価コード、制限された語彙、および抽出された埋め込みは、さらなる研究と再現性をサポートするために公開されます。

要約(オリジナル)

This paper presents a comprehensive analysis of various static word embeddings for Hungarian, including traditional models such as Word2Vec, FastText, as well as static embeddings derived from BERT-based models using different extraction methods. We evaluate these embeddings on both intrinsic and extrinsic tasks to provide a holistic view of their performance. For intrinsic evaluation, we employ a word analogy task, which assesses the embeddings ability to capture semantic and syntactic relationships. Our results indicate that traditional static embeddings, particularly FastText, excel in this task, achieving high accuracy and mean reciprocal rank (MRR) scores. Among the BERT-based models, the X2Static method for extracting static embeddings demonstrates superior performance compared to decontextualized and aggregate methods, approaching the effectiveness of traditional static embeddings. For extrinsic evaluation, we utilize a bidirectional LSTM model to perform Named Entity Recognition (NER) and Part-of-Speech (POS) tagging tasks. The results reveal that embeddings derived from dynamic models, especially those extracted using the X2Static method, outperform purely static embeddings. Notably, ELMo embeddings achieve the highest accuracy in both NER and POS tagging tasks, underscoring the benefits of contextualized representations even when used in a static form. Our findings highlight the continued relevance of static word embeddings in NLP applications and the potential of advanced extraction methods to enhance the utility of BERT-based models. This piece of research contributes to the understanding of embedding performance in the Hungarian language and provides valuable insights for future developments in the field. The training scripts, evaluation codes, restricted vocabulary, and extracted embeddings will be made publicly available to support further research and reproducibility.

arxiv情報

著者 Máté Gedeon
発行日 2025-05-12 17:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Comparative Analysis of Static Word Embeddings for Hungarian はコメントを受け付けていません

A class of distributed automata that contains the modal mu-fragment

要約

このホワイトペーパーでは、格付けされたモーダル$ \ mu $ -calculusの分散メッセージパスオートマトンのクラスへの$ \ mu $ fragmentからの翻訳を提供します。
帰結として、\ cite {ahvonen_neurips}から定理の代替証明を取得します。これは、Realsおよび等級付けされたモーダル置換計算で動作する再発グラフニューラルネットワークが、ロジックモナディック2次論理MSOに対する制限に同じ表現力を持っています。

要約(オリジナル)

This paper gives a translation from the $\mu$-fragment of the graded modal $\mu$-calculus to a class of distributed message-passing automata. As a corollary, we obtain an alternative proof for a theorem from \cite{ahvonen_neurips} stating that recurrent graph neural networks working with reals and graded modal substitution calculus have the same expressive power in restriction to the logic monadic second-order logic MSO.

arxiv情報

著者 Veeti Ahvonen,Damian Heiman,Antti Kuusisto
発行日 2025-05-12 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO, F.1.1 | A class of distributed automata that contains the modal mu-fragment はコメントを受け付けていません

Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning

要約

このペーパーでは、MLLMSのルールベースの強化微調整(RFT)における明示的思考プロセスの役割を調査します。
最初に、微調整に検証可能な報酬を使用して、MLLM画像分類のCLS-RLを提案します。
実験では、CLS-RLがSFTを大幅に上回り、クロスダタセットの一般化効果をもたらすことが示されています。
次に、RFTでの明示的な思考が常に必要かどうかを再考して疑問を投げかけます。
RFTの成功には明示的な思考が重要であるという条約に挑戦し、単純な平等精度報酬を導入することでRFTを探索することを検討し、RFTを調査しません。
さまざまなモデルサイズとタイプにわたる6つの多様なタスクで、非考えのRLを評価します。
実験結果は、3つの重要な調査結果を明らかにしています。1)。
視覚的な知覚タスクは、RFT中に思考を必要としません。なぜなら、No-Thinking-RLは、モデルサイズ全体で思考ベースのRFTを常に上回ったり、一致させたりするためです。
2)。}機能が限られているモデルは、RFT用の高品質のCOTを生成するのに苦労しており、思考ベースのRFTは、考えられないRLよりも効果的ではありません。
3)。
思考に基づくRFTのいくつかの応答のために、思考と回答の回答の答えの間には矛盾があり、全体的な精度よりも低い精度を示しています。
検証可能な回答の前に明示的な思考が報酬の収束を妨げ、パフォーマンスを減らす可能性があると仮定します。
この仮説をテストするために、実験的検証のためにこの効果を緩和するための答えの後に考えている考え方を提案します。
最後に、MLLMがRFT中にいつ考えるべきかを学ぶことができるかどうかを調べるために、パイロット研究を実施し、適応型考え方を導入します。
実験では、モデルの機能とタスクの複雑さに応じて特定のプロンプトに収束し、思考や非考えのRLの両方よりも同等またはより良いパフォーマンスを達成することが示されています。
これは、MLLMSが適応的に、その能力とタスクの複雑さに基づいて考えるかどうかを決定できることを示唆しています。

要約(オリジナル)

This paper investigates the role of explicit thinking process in rule-based reinforcement fine-tuning (RFT) for MLLMs. We first propose CLS-RL for MLLM image classification, using verifiable rewards for fine-tuning. Experiments show CLS-RL significantly outperforms SFT and yields a cross-dataset generalization effect. We then rethink and question whether explicit thinking in RFT is always necessary. Challenging the convention that explicit thinking is crucial for the success of RFT, we introduce No-Thinking-RL, exploring RFT without thinking by introducing a simple equality accuracy reward. We evaluate No-Thinking-RL on 6 diverse tasks across different model sizes and types. Experimental results reveal three key findings: 1). Visual perception tasks do not require thinking during RFT, as No-Thinking-RL consistently outperforms or matches Thinking-based RFT across model sizes. 2).} Models with limited capabilities struggle to generate high-quality CoT for RFT, making Thinking-based RFT less effective than No-Thinking-RL. 3). There are inconsistencies between the answers in the thinking and answer tags for some responses of thinking-based RFT, which show lower accuracy than the overall accuracy. We hypothesize that explicit thinking before verifiable answers may hinder reward convergence and reduce performance. To test this hypothesis, we propose Think-After-Answer, which places thinking after the answer to mitigate this effect for experimental verification. Lastly, we conduct a pilot study to explore whether MLLMs can learn when to think during RFT, introducing an Adaptive-Thinking method. Experiments show that it converges to a specific prompt depending on model capability and task complexity, achieving comparable or better performance than both Thinking and No-Thinking-RL. This suggests MLLMs can adaptively decide to think or not based on their capabilities and task complexity.

arxiv情報

著者 Ming Li,Jike Zhong,Shitian Zhao,Yuxiang Lai,Haoquan Zhang,Wang Bill Zhu,Kaipeng Zhang
発行日 2025-05-12 12:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning はコメントを受け付けていません

DocVXQA: Context-Aware Visual Explanations for Document Question Answering

要約

視覚的に自己探求可能なドキュメント質問の回答のための新しいフレームワークであるDocvxqaを提案します。
このフレームワークは、質問に対する正確な回答を生成するだけでなく、文脈的に重要な領域を強調する視覚的なヒートマップを学習するために設計されており、モデルの決定に対して解釈可能な正当化を提供します。
説明を学習プロセスに統合するために、明示的な学習目標として説明可能性の原則を定量的に定式化します。
回答に関連する領域のみを強調する従来の方法とは異なり、私たちのフレームワークは、\ textIt {contextivitivitivitivitivity十分な}である説明を提供します。
これにより、ユーザーの信頼が促進され、DOCVQAアプリケーションでの予測パフォーマンスと解釈可能性のバランスを達成します。
人間の評価を含む広範な実験は、私たちの方法の有効性を支持する強力な証拠を提供します。
このコードは、https://github.com/dali92002/docvxqaで入手できます。

要約(オリジナル)

We propose DocVXQA, a novel framework for visually self-explainable document question answering. The framework is designed not only to produce accurate answers to questions but also to learn visual heatmaps that highlight contextually critical regions, thereby offering interpretable justifications for the model’s decisions. To integrate explanations into the learning process, we quantitatively formulate explainability principles as explicit learning objectives. Unlike conventional methods that emphasize only the regions pertinent to the answer, our framework delivers explanations that are \textit{contextually sufficient} while remaining \textit{representation-efficient}. This fosters user trust while achieving a balance between predictive performance and interpretability in DocVQA applications. Extensive experiments, including human evaluation, provide strong evidence supporting the effectiveness of our method. The code is available at https://github.com/dali92002/DocVXQA.

arxiv情報

著者 Mohamed Ali Souibgui,Changkyu Choi,Andrey Barsky,Kangsoo Jung,Ernest Valveny,Dimosthenis Karatzas
発行日 2025-05-12 12:30:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DocVXQA: Context-Aware Visual Explanations for Document Question Answering はコメントを受け付けていません

Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models

要約

リモート具体化された参照式(Reverie)タスクでは、エージェントが複雑な屋内環境をナビゲートし、事前の探索なしで「Bring Me Spoon」などの高レベルの命令で指定されたリモートオブジェクトをローカライズする必要があります。
したがって、最終的な成功には効率的なナビゲーション計画が不可欠です。
このペーパーでは、大規模な言語モデル(PEAP-LLM)を使用して、各場所で単一ステップの命令を生成する新しいパラメーター効率の高いアクションプランナーを提案します。
提案されたモデルは、LLMゴールプランナー(LGP)とLORAアクションプランナー(LAP)の2つのモジュールで構成されています。
当初、LGPは、ターゲットオブジェクトや部屋を含む空想的な指示から目標指向の計画を抽出します。
次に、LAPは、目標指向の計画、高レベルの指示、および入力としての現在の視覚観測を伴うシングルステップ命令を生成します。
PEAP-LLMにより、具体化されたエージェントがその場でパスプランナーとしてラップと対話することができます。
LLMSの単純な直接アプリケーションは、パフォーマンスを達成することはほとんどありません。
また、既存のハードプロムベースの方法は、複雑なシナリオでエラーが発生しやすく、人間の介入が必要です。
これらの問題に対処し、LLMが幻覚と偏った情報を生成するのを防ぐために、監視された微調整(STF)と直接優先最適化(DPO)で構成されるLLMを微調整するための新しい2段階の方法を提案します。
SFTは生成された命令の品質を向上させ、DPOは環境フィードバックを利用します。
実験結果は、以前の最先端と比較して、Reverieに対する提案されたモデルの優位性を示しています。

要約(オリジナル)

The remote embodied referring expression (REVERIE) task requires an agent to navigate through complex indoor environments and localize a remote object specified by high-level instructions, such as ‘bring me a spoon’, without pre-exploration. Hence, an efficient navigation plan is essential for the final success. This paper proposes a novel parameter-efficient action planner using large language models (PEAP-LLM) to generate a single-step instruction at each location. The proposed model consists of two modules, LLM goal planner (LGP) and LoRA action planner (LAP). Initially, LGP extracts the goal-oriented plan from REVERIE instructions, including the target object and room. Then, LAP generates a single-step instruction with the goal-oriented plan, high-level instruction, and current visual observation as input. PEAP-LLM enables the embodied agent to interact with LAP as the path planner on the fly. A simple direct application of LLMs hardly achieves good performance. Also, existing hard-prompt-based methods are error-prone in complicated scenarios and need human intervention. To address these issues and prevent the LLM from generating hallucinations and biased information, we propose a novel two-stage method for fine-tuning the LLM, consisting of supervised fine-tuning (STF) and direct preference optimization (DPO). SFT improves the quality of generated instructions, while DPO utilizes environmental feedback. Experimental results show the superiority of our proposed model on REVERIE compared to the previous state-of-the-art.

arxiv情報

著者 Bahram Mohammadi,Ehsan Abbasnejad,Yuankai Qi,Qi Wu,Anton Van Den Hengel,Javen Qinfeng Shi
発行日 2025-05-12 12:38:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models はコメントを受け付けていません

A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs

要約

幅では剪定と比較して、深さごとの剪定は、リソース制約のシナリオで推論を大幅に加速する可能性があります。
ただし、トランス層全体を最小剪定ユニットとして扱うと、レイヤーの情報全体を無差別に破棄することにより、モデルのパフォーマンスを低下させる可能性があります。
このホワイトペーパーでは、繁殖するカーネルヒルベルトスペースの異なるレイヤーの出力の相関を分析することにより、大規模な言語モデルのレイヤー間の「パッチのような」特徴関係を明らかにします。
この観察結果に基づいて、事前に定義された類似性のしきい値に応じて上から下まで連続したレイヤーを動的に選択および融合するスライド層マージメソッドを提案し、それにより、パフォーマンスを維持しながらモデル構造を簡素化します。
さまざまなアーキテクチャとさまざまなパラメータースケールを使用したLLMSに関する広範な実験は、剪定後のゼロショット推論のパフォーマンスと再訓練回復品質の両方で既存の剪定技術を上回ることを示しています。
特に、Vicuna-7Bモデルでの35%の剪定を使用した実験では、既存の方法と比較して、ゼロショットタスクの平均パフォーマンスが1.654%改善されました。
さらに、深さの剪定と幅剪定を組み合わせて剪定効果を高める可能性をさらに明らかにします。
私たちのコードは、https://github.com/920927/slm-a-sliding-layer-merging-methodで入手できます。

要約(オリジナル)

Compared to width-wise pruning, depth-wise pruning can significantly accelerate inference in resource-constrained scenarios. However, treating the entire Transformer layer as the minimum pruning unit may degrade model performance by indiscriminately discarding the entire information of the layer. This paper reveals the “Patch-like” feature relationship between layers in large language models by analyzing the correlation of the outputs of different layers in the reproducing kernel Hilbert space. Building on this observation, we propose a sliding layer merging method that dynamically selects and fuses consecutive layers from top to bottom according to a pre-defined similarity threshold, thereby simplifying the model structure while maintaining its performance. Extensive experiments on LLMs with various architectures and different parameter scales show that our method outperforms existing pruning techniques in both zero-shot inference performance and retraining recovery quality after pruning. In particular, in the experiment with 35% pruning on the Vicuna-7B model, our method achieved a 1.654% improvement in average performance on zero-shot tasks compared to the existing method. Moreover, we further reveal the potential of combining depth pruning with width pruning to enhance the pruning effect. Our codes are available at https://github.com/920927/SLM-a-sliding-layer-merging-method.

arxiv情報

著者 Xuan Ding,Rui Sun,Yunjian Zhang,Xiu Yan,Yueqi Zhou,Kaihao Huang,Suzhong Fu,Chuanlong Xie,Yao Zhu
発行日 2025-05-12 12:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs はコメントを受け付けていません

MAIS: Memory-Attention for Interactive Segmentation

要約

インタラクティブな医療セグメンテーションは、ユーザーフィードバックを通じて予測を改善することにより、注釈の取り組みを削減します。
[セグメントAnything Model(SAM]などのVision Transformer(VIT)ベースのモデルは、ユーザークリックと以前のマスクをプロンプトとして使用して最先端のパフォーマンスを実現します。
ただし、既存の方法は、相互作用を独立したイベントとして扱い、冗長補正と洗練の獲得につながります。
これに対処し、過去のユーザー入力とセグメンテーション状態を保存し、時間的コンテキスト統合を可能にするインタラクティブセグメンテーションのメモリアテンションメカニズムであるMAISを導入します。
私たちのアプローチは、多様なイメージングモダリティ全体でVITベースのセグメンテーションを強化し、より効率的で正確な改良を達成します。

要約(オリジナル)

Interactive medical segmentation reduces annotation effort by refining predictions through user feedback. Vision Transformer (ViT)-based models, such as the Segment Anything Model (SAM), achieve state-of-the-art performance using user clicks and prior masks as prompts. However, existing methods treat interactions as independent events, leading to redundant corrections and limited refinement gains. We address this by introducing MAIS, a Memory-Attention mechanism for Interactive Segmentation that stores past user inputs and segmentation states, enabling temporal context integration. Our approach enhances ViT-based segmentation across diverse imaging modalities, achieving more efficient and accurate refinements.

arxiv情報

著者 Mauricio Orbes-Arteaga,Oeslle Lucena,Sabastien Ourselin,M. Jorge Cardoso
発行日 2025-05-12 12:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MAIS: Memory-Attention for Interactive Segmentation はコメントを受け付けていません

Veri-Car: Towards Open-world Vehicle Information Retrieval

要約

多くの産業部門およびサービスセクターには、画像から車両の特性を抽出するツールが必要です。
これは、多様なノイズと多数のクラスだけでなく、市場への新しい車両モデルの絶え間ない導入によっても複雑なタスクです。
この論文では、このタスクを支援するように設計された情報検索統合アプローチであるVeri-Carを提示します。
車のメーカー、タイプ、モデル、年、色、およびナンバープレートを正確に識別するために、監督された学習技術を活用します。
このアプローチは、事前に訓練されたモデルの洗練された組み合わせと階層的な多様性の損失を採用することにより、新しい車のモデルとバリエーションが頻繁に出現するオープンワールドの問題を処理するという課題にも対処します。
Veri-Carは堅牢なパフォーマンスを示し、見られたデータと目に見えないデータの両方を分類する際に高い精度と精度を達成します。
さらに、アンサンブルのナンバープレート検出とOCRモデルを統合して、ライセンスプレート番号を印象的な精度で抽出します。

要約(オリジナル)

Many industrial and service sectors require tools to extract vehicle characteristics from images. This is a complex task not only by the variety of noise, and large number of classes, but also by the constant introduction of new vehicle models to the market. In this paper, we present Veri-Car, an information retrieval integrated approach designed to help on this task. It leverages supervised learning techniques to accurately identify the make, type, model, year, color, and license plate of cars. The approach also addresses the challenge of handling open-world problems, where new car models and variations frequently emerge, by employing a sophisticated combination of pre-trained models, and a hierarchical multi-similarity loss. Veri-Car demonstrates robust performance, achieving high precision and accuracy in classifying both seen and unseen data. Additionally, it integrates an ensemble license plate detection, and an OCR model to extract license plate numbers with impressive accuracy.

arxiv情報

著者 Andrés Muñoz,Nancy Thomas,Annita Vapsi,Daniel Borrajo
発行日 2025-05-12 13:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Veri-Car: Towards Open-world Vehicle Information Retrieval はコメントを受け付けていません

FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images

要約

合成フェイスデータセットは、プライバシーの懸念、人口統計の不均衡、高い収集コストなど、実際の生体認証データの制限を克服するためにますます使用されています。
ただし、多くの既存の方法は、アイデンティティ属性に対する細粒の制御を欠いており、構造化されたキャプチャ条件下でペアになったアイデンティティ一貫性のある画像を生成できません。
Fluxsynidを紹介します。FluxSynidは、ユーザー定義のID属性分布とペアリングされたドキュメントスタイルおよび信頼できるライブキャプチャ画像を備えた高解像度の合成フェイスデータセットを生成するためのフレームワークです。
Fluxsynidフレームワークを使用して生成されたデータセットは、実際のアイデンティティ分布との調整が改善され、以前の作業と比較してより大きなインターセットの多様性を示しています。
カスタムデータセットを生成するためのFluxSynidフレームワークと、14,889の合成アイデンティティのデータセットとともに、顔認識やモーフィング攻撃検出などの生体認証研究をサポートするために公開されています。

要約(オリジナル)

Synthetic face datasets are increasingly used to overcome the limitations of real-world biometric data, including privacy concerns, demographic imbalance, and high collection costs. However, many existing methods lack fine-grained control over identity attributes and fail to produce paired, identity-consistent images under structured capture conditions. We introduce FLUXSynID, a framework for generating high-resolution synthetic face datasets with user-defined identity attribute distributions and paired document-style and trusted live capture images. The dataset generated using the FLUXSynID framework shows improved alignment with real-world identity distributions and greater inter-set diversity compared to prior work. The FLUXSynID framework for generating custom datasets, along with a dataset of 14,889 synthetic identities, is publicly released to support biometric research, including face recognition and morphing attack detection.

arxiv情報

著者 Raul Ismayilov,Luuk Spreeuwers,Dzemila Sero
発行日 2025-05-12 13:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FLUXSynID: A Framework for Identity-Controlled Synthetic Face Generation with Document and Live Images はコメントを受け付けていません