EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models

要約

産業用アノマリー検出(IAD)は、製造中に製品の品質を確保するために重要です。
既存のゼロショット欠陥セグメンテーションと検出方法は有効性を示していますが、欠陥の詳細な説明を提供することはできません。
さらに、IADでの大規模なマルチモーダルモデルの適用は初期段階に残っており、多くの場合、微調整プロセス中に過剰適合することにより、質問を回答(QA)パフォーマンスとマスクベースの接地機能のバランスをとる際に課題に直面しています。
これらの課題に対処するために、コア機能抽出からダイアログ機能を分離するための専用のマルチモーダル欠陥ローカリゼーションモジュールを導入する新しいアプローチを提案します。
このデカップリングは、独立した最適化目標とカスタマイズされた学習戦略によって達成されます。
さらに、幅広い欠陥タ​​イプと産業シナリオを含む、欠陥検出質問応答(DDQA)という名前の最初のマルチモーダル産業異常検出トレーニングデータセットに貢献します。
GPT生成データに依存する従来のデータセットとは異なり、DDQAは信頼性と信頼性を保証し、モデルトレーニングの堅牢な基盤を提供します。
実験結果は、提案された方法である説明可能な産業用アノマリー検出アシスタント(EIAD)が、欠陥検出およびローカリゼーションタスクで優れたパフォーマンスを達成することを示しています。
精度を大幅に向上させるだけでなく、解釈性も向上させます。
これらの進歩は、産業環境での実用的なアプリケーションのEIADの可能性を強調しています。

要約(オリジナル)

Industrial Anomaly Detection (IAD) is critical to ensure product quality during manufacturing. Although existing zero-shot defect segmentation and detection methods have shown effectiveness, they cannot provide detailed descriptions of the defects. Furthermore, the application of large multi-modal models in IAD remains in its infancy, facing challenges in balancing question-answering (QA) performance and mask-based grounding capabilities, often owing to overfitting during the fine-tuning process. To address these challenges, we propose a novel approach that introduces a dedicated multi-modal defect localization module to decouple the dialog functionality from the core feature extraction. This decoupling is achieved through independent optimization objectives and tailored learning strategies. Additionally, we contribute to the first multi-modal industrial anomaly detection training dataset, named Defect Detection Question Answering (DDQA), encompassing a wide range of defect types and industrial scenarios. Unlike conventional datasets that rely on GPT-generated data, DDQA ensures authenticity and reliability and offers a robust foundation for model training. Experimental results demonstrate that our proposed method, Explainable Industrial Anomaly Detection Assistant (EIAD), achieves outstanding performance in defect detection and localization tasks. It not only significantly enhances accuracy but also improves interpretability. These advancements highlight the potential of EIAD for practical applications in industrial settings.

arxiv情報

著者 Zongyun Zhang,Jiacheng Ruan,Xian Gao,Ting Liu,Yuzhuo Fu
発行日 2025-05-16 15:25:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models はコメントを受け付けていません

A Stability Principle for Learning under Non-Stationarity

要約

非定常環境での統計学習のための汎用性の高いフレームワークを開発します。
各期間において、私たちのアプローチは安定性の原理を適用して、累積データの利用を最大化しながら、累積バイアスを確率的誤差と比較して許容範囲内に保持します。
私たちの理論は、このアプローチの未知の非定常性への適応性を示しています。
母集団の損失が強く凸状である場合、またはLipschitzのみである場合、対数因子まで最適な最適な後悔の範囲を証明します。
分析の中心には、2つの新しいコンポーネントがあります。機能と、非定常データシーケンスを準定常断片に分割するためのセグメンテーション手法の類似性の尺度です。
電力需要予測と病院の看護師の人員配置に関する実際の実験を通じて、アプローチの実際のパフォーマンスを評価します。

要約(オリジナル)

We develop a versatile framework for statistical learning in non-stationary environments. In each time period, our approach applies a stability principle to select a look-back window that maximizes the utilization of historical data while keeping the cumulative bias within an acceptable range relative to the stochastic error. Our theory showcases the adaptivity of this approach to unknown non-stationarity. We prove regret bounds that are minimax optimal up to logarithmic factors when the population losses are strongly convex, or Lipschitz only. At the heart of our analysis lie two novel components: a measure of similarity between functions and a segmentation technique for dividing the non-stationary data sequence into quasi-stationary pieces. We evaluate the practical performance of our approach through real-data experiments on electricity demand prediction and hospital nurse staffing.

arxiv情報

著者 Chengpiao Huang,Kaizheng Wang
発行日 2025-05-16 15:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 90C15, cs.AI, cs.LG, math.OC, stat.ML | A Stability Principle for Learning under Non-Stationarity はコメントを受け付けていません

Out-of-distribution generalisation is hard: evidence from ARC-like tasks

要約

分散排出(OOD)一般化は、人間と動物の知性の特徴と見なされます。
構成を通じてOODを実現するには、システムは経験豊富な入出力マッピングの環境不変の特性を発見し、それらを新しい入力に転送する必要があります。
これは、インテリジェントシステムが適切な、タスク不変、および構成可能な入力機能と構成方法を識別できる場合に実現することができ、したがって、学習したデータポイント間の補間ではなく、それらの機能のタスク不変の構成に基づいて行動することができます。
アルゴリズムが実際にデータから構成構造を学習することを確認するために、OODセットアップでテストするだけでは十分ではないが、識別された機能が実際に組成的であることを確認する必要があることを提案します。
これを紹介します。これは、一般的に使用される3つのニューラルネットワークではOODメトリックではない明確に定義されたOODメトリックを調査して、多層ペルセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、および変圧器です。
さらに、OODシナリオで成功できるバイアスが染み込んだ2つの新しいネットワークアーキテクチャを開発します。
正しいバイアスとほぼ完全なoodパフォーマンスがあっても、アルゴリズムがまだ構成一般化のための正しい機能を学習できないことを示します。

要約(オリジナル)

Out-of-distribution (OOD) generalisation is considered a hallmark of human and animal intelligence. To achieve OOD through composition, a system must discover the environment-invariant properties of experienced input-output mappings and transfer them to novel inputs. This can be realised if an intelligent system can identify appropriate, task-invariant, and composable input features, as well as the composition methods, thus allowing it to act based not on the interpolation between learnt data points but on the task-invariant composition of those features. We propose that in order to confirm that an algorithm does indeed learn compositional structures from data, it is not enough to just test on an OOD setup, but one also needs to confirm that the features identified are indeed compositional. We showcase this by exploring two tasks with clearly defined OOD metrics that are not OOD solvable by three commonly used neural networks: a Multi-Layer Perceptron (MLP), a Convolutional Neural Network (CNN), and a Transformer. In addition, we develop two novel network architectures imbued with biases that allow them to be successful in OOD scenarios. We show that even with correct biases and almost perfect OOD performance, an algorithm can still fail to learn the correct features for compositional generalisation.

arxiv情報

著者 George Dimitriadis,Spyridon Samothrakis
発行日 2025-05-16 15:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Out-of-distribution generalisation is hard: evidence from ARC-like tasks はコメントを受け付けていません

Phare: A Safety Probe for Large Language Models

要約

大規模な言語モデル(LLMS)の安全性を確保することは責任ある展開に重要ですが、既存の評価は、障害モードの識別よりもパフォーマンスを優先することがよくあります。
幻覚と信頼性、社会的バイアス、有害なコンテンツ生成という3つの重要な側面にわたってLLMの行動を調査および評価するための多言語の診断フレームワークであるPhareを紹介します。
17の最先端のLLMの評価により、サイコファンシー、迅速な感度、ステレオタイプの生殖など、すべての安全性の次元にわたって体系的な脆弱性のパターンが明らかになります。
単にモデルをランキングするのではなく、これらの特定の障害モードを強調することにより、Phareは研究者と実践者に、より堅牢で整列した、信頼できる言語システムを構築するための実用的な洞察を提供します。

要約(オリジナル)

Ensuring the safety of large language models (LLMs) is critical for responsible deployment, yet existing evaluations often prioritize performance over identifying failure modes. We introduce Phare, a multilingual diagnostic framework to probe and evaluate LLM behavior across three critical dimensions: hallucination and reliability, social biases, and harmful content generation. Our evaluation of 17 state-of-the-art LLMs reveals patterns of systematic vulnerabilities across all safety dimensions, including sycophancy, prompt sensitivity, and stereotype reproduction. By highlighting these specific failure modes rather than simply ranking models, Phare provides researchers and practitioners with actionable insights to build more robust, aligned, and trustworthy language systems.

arxiv情報

著者 Pierre Le Jeune,Benoît Malésieux,Weixuan Xiao,Matteo Dora
発行日 2025-05-16 15:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY | Phare: A Safety Probe for Large Language Models はコメントを受け付けていません

Leveraging Graph Retrieval-Augmented Generation to Support Learners’ Understanding of Knowledge Concepts in MOOCs

要約

大規模なオープンオンラインコース(MOOC)には、学習者とインストラクターの間の直接的な相互作用が欠けているため、学習者が新しい知識の概念を理解することは困難です。
最近、学習者はますます大きな言語モデル(LLM)を使用して、新しい知識を獲得する際にサポートしています。
ただし、LLMは信頼性を制限する幻覚を起こしやすいです。
回答を生成する前に、関連するドキュメントを取得することにより、検索された生成(RAG)はこの問題に対処します。
ただし、異なるMOOCでのRAGの適用は、構造化されていない学習材料によって制限されます。
さらに、現在のRAGシステムでは、学習者の学習ニーズに向けて積極的に導きません。
これらの課題に対処するために、MOOCプラットフォームのコースマッパーの知識概念を理解するために学習者を導くために、教育知識グラフ(EDUKGS)と個人知識グラフ(PKG)を活用するグラフぼろきれパイプラインを提案します。
具体的には、(1)PKGベースの質問生成方法を実装して、学習者にコンテキストでパーソナライズされた質問を推奨し、(2)EDUKGの知識概念間の関係を活用して学習者が選択した質問に答えるEDUKGベースの質問回答方法を実装します。
両方の方法を評価するために、MOOCプラットフォームのCoursemapperの3つの異なるMOOCに関する3人の専門家インストラクターとの研究を実施しました。
評価の結果は、学習者がパーソナライズされた学習体験において新しい知識の概念を理解できるようにするためのグラフラグの可能性を示しています。

要約(オリジナル)

Massive Open Online Courses (MOOCs) lack direct interaction between learners and instructors, making it challenging for learners to understand new knowledge concepts. Recently, learners have increasingly used Large Language Models (LLMs) to support them in acquiring new knowledge. However, LLMs are prone to hallucinations which limits their reliability. Retrieval-Augmented Generation (RAG) addresses this issue by retrieving relevant documents before generating a response. However, the application of RAG across different MOOCs is limited by unstructured learning material. Furthermore, current RAG systems do not actively guide learners toward their learning needs. To address these challenges, we propose a Graph RAG pipeline that leverages Educational Knowledge Graphs (EduKGs) and Personal Knowledge Graphs (PKGs) to guide learners to understand knowledge concepts in the MOOC platform CourseMapper. Specifically, we implement (1) a PKG-based Question Generation method to recommend personalized questions for learners in context, and (2) an EduKG-based Question Answering method that leverages the relationships between knowledge concepts in the EduKG to answer learner selected questions. To evaluate both methods, we conducted a study with 3 expert instructors on 3 different MOOCs in the MOOC platform CourseMapper. The results of the evaluation show the potential of Graph RAG to empower learners to understand new knowledge concepts in a personalized learning experience.

arxiv情報

著者 Mohamed Abdelmagied,Mohamed Amine Chatti,Shoeb Joarder,Qurat Ul Ain,Rawaa Alatrash
発行日 2025-05-16 15:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Leveraging Graph Retrieval-Augmented Generation to Support Learners’ Understanding of Knowledge Concepts in MOOCs はコメントを受け付けていません

Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities

要約

コンテンツの出所を検証することは、多くの組織、たとえば教育機関、ソーシャルメディアプラットフォーム、企業などの機能にとって重要です。この問題は、大規模な言語モデル(LLMS)によって生成されたテキストが人間生成コンテンツとほとんど見分けがつかないため、ますます困難になっています。
さらに、多くの機関は社内LLMSを利用しており、外部の非認可LLMが機関内でコンテンツを生成しないようにしたいと考えています。
この論文では、次の質問に答えます。テキストを考えると、特定のLLMによって生成されたかどうかを特定できますか?
履歴に完全に依存して、LLM生成テキストを連続的な確率プロセスとしてモデル化します。
次に、ゼロショット統計テストを設計します。(i)LLMS $ a $(非認可)と$ b $(社内)の2つの異なる既知のセットによって生成されたテキストを区別し、(ii)テキストが既知のLLMによって生成されたか、未知のモデルによって生成されたかどうか、例えば人間または他の言語生成プロセスを識別します。
テストのタイプIおよびタイプIIエラーは、テキストの長さとともに指数関数的に減少することを証明します。
そのために、$ b $がテキストを生成する場合、文字列の長さの指数関数的に少ない確率を除いて、$ a $の下の文字列のログプレキシティが$ b $と$ a $の平均交差点に収束することを示します。
次に、ホワイトボックスアクセスを使用してLLMSを使用して実験を提示して、理論的な結果をサポートし、ブラックボックスの設定と敵対的な攻撃に対する結果の堅牢性を経験的に調べます。
ブラックボックス設定では、この方法では、固定FPRの5 \%で平均TPRが82.5 \%を達成します。
敵対的な摂動では、最小TPRは同じFPRしきい値で48.6 \%です。
両方の結果は、すべての非営利的なベースラインよりも優れています。
コード、データ、およびプロジェクトのオンラインデモについては、https://github.com/tararadvand74/llm-text-セクションを参照してください。

要約(オリジナル)

Verifying the provenance of content is crucial to the function of many organizations, e.g., educational institutions, social media platforms, firms, etc. This problem is becoming increasingly challenging as text generated by Large Language Models (LLMs) becomes almost indistinguishable from human-generated content. In addition, many institutions utilize in-house LLMs and want to ensure that external, non-sanctioned LLMs do not produce content within the institution. In this paper, we answer the following question: Given a piece of text, can we identify whether it was produced by a particular LLM or not? We model LLM-generated text as a sequential stochastic process with complete dependence on history. We then design zero-shot statistical tests to (i) distinguish between text generated by two different known sets of LLMs $A$ (non-sanctioned) and $B$ (in-house), and (ii) identify whether text was generated by a known LLM or generated by any unknown model, e.g., a human or some other language generation process. We prove that the type I and type II errors of our test decrease exponentially with the length of the text. For that, we show that if $B$ generates the text, then except with an exponentially small probability in string length, the log-perplexity of the string under $A$ converges to the average cross-entropy of $B$ and $A$. We then present experiments using LLMs with white-box access to support our theoretical results and empirically examine the robustness of our results to black-box settings and adversarial attacks. In the black-box setting, our method achieves an average TPR of 82.5\% at a fixed FPR of 5\%. Under adversarial perturbations, our minimum TPR is 48.6\% at the same FPR threshold. Both results outperform all non-commercial baselines. See https://github.com/TaraRadvand74/llm-text-detection for code, data, and an online demo of the project.

arxiv情報

著者 Tara Radvand,Mojtaba Abdolmaleki,Mohamed Mostagir,Ambuj Tewari
発行日 2025-05-16 15:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT, stat.ML | Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities はコメントを受け付けていません

On the Role of Speech Data in Reducing Toxicity Detection Bias

要約

テキスト毒性検出システムは、人口統計グループに言及しているサンプルに不均衡な誤陽性の不均衡な速度を生成し、重要なバイアスを示します。
しかし、音声での毒性検出はどうですか?
テキストベースのバイアスが音声ベースのシステムによって緩和される程度を調査するために、多言語Mutoxデータセットの高品質のグループアノテーションのセットを作成し、これらの注釈を活用して、音声ベースとテキストベースの毒性分類器を体系的に比較します。
我々の調査結果は、推論中の音声データへのアクセスは、特に曖昧で意見の相違誘導サンプルについて、グループの言及に対するバイアスの減少をサポートすることを示しています。
また、我々の結果は、転写パイプラインではなく、分類器を改善することが、グループバイアスを減らすのに役立つことを示唆しています。
注釈を公開し、将来の毒性データセット構築に関する推奨事項を提供します。

要約(オリジナル)

Text toxicity detection systems exhibit significant biases, producing disproportionate rates of false positives on samples mentioning demographic groups. But what about toxicity detection in speech? To investigate the extent to which text-based biases are mitigated by speech-based systems, we produce a set of high-quality group annotations for the multilingual MuTox dataset, and then leverage these annotations to systematically compare speech- and text-based toxicity classifiers. Our findings indicate that access to speech data during inference supports reduced bias against group mentions, particularly for ambiguous and disagreement-inducing samples. Our results also suggest that improving classifiers, rather than transcription pipelines, is more helpful for reducing group bias. We publicly release our annotations and provide recommendations for future toxicity dataset construction.

arxiv情報

著者 Samuel J. Bell,Mariano Coria Meglioli,Megan Richards,Eduardo Sánchez,Christophe Ropers,Skyler Wang,Adina Williams,Levent Sagun,Marta R. Costa-jussà
発行日 2025-05-16 15:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | On the Role of Speech Data in Reducing Toxicity Detection Bias はコメントを受け付けていません

Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient

要約

モデルベースの強化学習(RL)は、ほとんどのモデルのないRLアルゴリズムを悩ませるデータの非効率性に対するソリューションを提供します。
ただし、堅牢な世界モデルを学習するには、多くの場合、複雑で深いアーキテクチャが必要であり、計算的に高価で訓練が困難です。
世界モデル内では、シーケンスモデルが正確な予測に重要な役割を果たし、それぞれに独自の課題があるさまざまなアーキテクチャが検討されています。
現在、再発性ニューラルネットワーク(RNN)ベースの世界モデルは、勾配の消失と長期依存関係のキャプチャに苦労しています。
一方、変圧器は、$ o(n^2)$としてスケーリングし、$ n $がシーケンスの長さである、自己触媒メカニズムの2次記憶と計算の複雑さに悩まされます。
これらの課題に対処するために、$ O(n)$メモリと計算の複雑さを達成しながら、長期依存関係を効果的にキャプチャし、より長いシーケンスで効率的なトレーニングを可能にする状態空間モデル(SSM)ベースの世界モデル、ドラマ、特にMambaを活用することを提案します。
また、初期のトレーニング段階で誤った世界モデルによって引き起こされる最適性を緩和するための新しいサンプリング方法を紹介します。
これらのテクニックを組み合わせることで、ドラマは、700万パラメーターの世界モデルのみを使用して、他の最先端(SOTA)モデルベースのRLアルゴリズムと競合するAtari100Kベンチマークで正規化されたスコアを実現します。
ドラマは、標準のラップトップなど、既製のハードウェアでアクセスしやすくトレーニング可能です。
私たちのコードは、https://github.com/realwenlongwang/drama.gitで入手できます。

要約(オリジナル)

Model-based reinforcement learning (RL) offers a solution to the data inefficiency that plagues most model-free RL algorithms. However, learning a robust world model often requires complex and deep architectures, which are computationally expensive and challenging to train. Within the world model, sequence models play a critical role in accurate predictions, and various architectures have been explored, each with its own challenges. Currently, recurrent neural network (RNN)-based world models struggle with vanishing gradients and capturing long-term dependencies. Transformers, on the other hand, suffer from the quadratic memory and computational complexity of self-attention mechanisms, scaling as $O(n^2)$, where $n$ is the sequence length. To address these challenges, we propose a state space model (SSM)-based world model, Drama, specifically leveraging Mamba, that achieves $O(n)$ memory and computational complexity while effectively capturing long-term dependencies and enabling efficient training with longer sequences. We also introduce a novel sampling method to mitigate the suboptimality caused by an incorrect world model in the early training stages. Combining these techniques, Drama achieves a normalised score on the Atari100k benchmark that is competitive with other state-of-the-art (SOTA) model-based RL algorithms, using only a 7 million-parameter world model. Drama is accessible and trainable on off-the-shelf hardware, such as a standard laptop. Our code is available at https://github.com/realwenlongwang/Drama.git.

arxiv情報

著者 Wenlong Wang,Ivana Dusparic,Yucheng Shi,Ke Zhang,Vinny Cahill
発行日 2025-05-16 15:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient はコメントを受け付けていません

Large Language Model Use Impact Locus of Control

要約

AIが私たちの書き方をますます形作るにつれて、彼らは私たちが自分自身をどのように知覚するかを静かに再形成するかもしれません。
この論文では、AIとの共同執筆の人々のコントロールの軌跡に対する心理的な影響を探ります。
462人の参加者との実証研究を通じて、雇用状況は、ユーザーのAIとそのコントロールの軌跡を形成する上で重要な役割を果たすことがわかりました。
現在の結果は、雇用された参加者がAIへのより高い依存と内部統制へのシフトを示していることを実証しましたが、失業者のユーザーは個人機関の削減を経験する傾向がありました。
定量的な結果と定性的観察を通じて、この研究は、個人の機関とアイデンティティの形成におけるAIの役割についてのより広範な会話を開きます。

要約(オリジナル)

As AI tools increasingly shape how we write, they may also quietly reshape how we perceive ourselves. This paper explores the psychological impact of co-writing with AI on people’s locus of control. Through an empirical study with 462 participants, we found that employment status plays a critical role in shaping users’ reliance on AI and their locus of control. Current results demonstrated that employed participants displayed higher reliance on AI and a shift toward internal control, while unemployed users tended to experience a reduction in personal agency. Through quantitative results and qualitative observations, this study opens a broader conversation about AI’s role in shaping personal agency and identity.

arxiv情報

著者 Jenny Xiyu Fu,Brennan Antone,Kowe Kadoma,Malte Jung
発行日 2025-05-16 16:16:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Large Language Model Use Impact Locus of Control はコメントを受け付けていません

Prototype Augmented Hypernetworks for Continual Learning

要約

継続的な学習(CL)は、事前の知識を忘れることなく一連のタスクを学ぶことを目指していますが、新しいタスクのグラデーション更新は、しばしば以前に学んだ重みを上書きし、壊滅的な忘却(CF)を引き起こします。
学習可能なタスクプロトタイプを条件付けられた単一のハイパーネットワークが、タスク固有の分類器ヘッドをオンデマンドで動的に生成するフレームワークであるプロトタイプを得たハイパーネットワーク(PAH)を提案します。
忘却を緩和するために、PAHはクロスエントロピーと二重蒸留損失を組み合わせて、1つはロジットを整列させてプロトタイプを調整し、タスク全体の安定した特徴表現を確保します。
Split-Cifar100とTinyImagenetの評価は、PAHが最先端のパフォーマンスを達成し、それぞれ74.5%と63.7%の精度に達し、それぞれ1.7%と4.4%の忘れを忘れて、サンプルやヘッドを保存せずに以前の方法を上回ることを示しています。

要約(オリジナル)

Continual learning (CL) aims to learn a sequence of tasks without forgetting prior knowledge, but gradient updates for a new task often overwrite the weights learned earlier, causing catastrophic forgetting (CF). We propose Prototype-Augmented Hypernetworks (PAH), a framework where a single hypernetwork, conditioned on learnable task prototypes, dynamically generates task-specific classifier heads on demand. To mitigate forgetting, PAH combines cross-entropy with dual distillation losses, one to align logits and another to align prototypes, ensuring stable feature representations across tasks. Evaluations on Split-CIFAR100 and TinyImageNet demonstrate that PAH achieves state-of-the-art performance, reaching 74.5 % and 63.7 % accuracy with only 1.7 % and 4.4 % forgetting, respectively, surpassing prior methods without storing samples or heads.

arxiv情報

著者 Neil De La Fuente,Maria Pilligua,Daniel Vidal,Albin Soutiff,Cecilia Curreli,Daniel Cremers,Andrey Barsky
発行日 2025-05-16 16:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Prototype Augmented Hypernetworks for Continual Learning はコメントを受け付けていません