Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond

要約

近年、トレーニング データ アトリビューション (TDA) 手法が、ニューラル ネットワークの解釈可能性の有望な方向性として浮上しています。
TDA に関する研究は盛んですが、帰属の評価には限られた労力が費やされています。
従来の特徴帰属アプローチの評価指標の開発と同様に、さまざまなコンテキストにわたる TDA 手法の品質を評価するために、いくつかの独立した指標が提案されています。
しかし、体系的な比較を可能にする統一フレームワークの欠如により、TDA 手法への信頼が制限され、その広範な採用が妨げられています。
この研究ギャップに対処するために、TDA 手法の評価を容易にするために設計された Python ツールキットである Quanda を紹介します。
Quanda は、包括的な評価メトリクスのセットを提供するだけでなく、さまざまなリポジトリにわたる既存の TDA 実装とシームレスに統合するための統一インターフェイスを提供し、体系的なベンチマークを可能にします。
このツールキットはユーザーフレンドリーで、徹底的にテストされ、十分に文書化されており、PyPi および https://github.com/dilyabareeva/quanda でオープンソース ライブラリとして利用できます。

要約(オリジナル)

In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.

arxiv情報

著者 Dilyara Bareeva,Galip Ümit Yolcu,Anna Hedström,Niklas Schmolenski,Thomas Wiegand,Wojciech Samek,Sebastian Lapuschkin
発行日 2024-10-09 17:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy

要約

外交は人間社会における最も高度な活動の一つです。
複数の関係者/エージェント間の複雑なやり取りには、社会的推論、交渉術、長期戦略計画などのさまざまな能力が必要となります。
これまでの AI エージェントは、複数のエージェントが関与するタスクでマルチステップ ゲームやより大きなアクション スペースを処理できる能力を証明してきました。
しかし、外交には、特に必要な交渉段階を考慮すると、驚くほど広範な意思決定の余地が伴います。
最近、LLM エージェントは、いくつかのアプリケーションで以前のエージェントの境界を拡張する可能性を示していますが、複雑なマルチエージェント環境で非常に長い計画期間を処理するにはまだ十分ではありません。
最先端の LLM テクノロジーを活用した私たちは、より強力な LLM ベースの社会エージェントのための 3 つの核となる重要な機能を組み合わせることにより、このような高度に包括的なマルチエージェントのミッションにおいて、人間のようなエージェントに向けた AI の上限を探索する最初の試みを行います。
記憶と反省を備えた戦略的プランナー。
2) 社会的推論に基づいて目標指向で交渉する。
3) 自動プレイ ゲームによって記憶を増強し、人間が関与することなく自己進化します。

要約(オリジナル)

Diplomacy is one of the most sophisticated activities in human society. The complex interactions among multiple parties/ agents involve various abilities like social reasoning, negotiation arts, and long-term strategy planning. Previous AI agents surely have proved their capability of handling multi-step games and larger action spaces on tasks involving multiple agents. However, diplomacy involves a staggering magnitude of decision spaces, especially considering the negotiation stage required. Recently, LLM agents have shown their potential for extending the boundary of previous agents on a couple of applications, however, it is still not enough to handle a very long planning period in a complex multi-agent environment. Empowered with cutting-edge LLM technology, we make the first stab to explore AI’s upper bound towards a human-like agent for such a highly comprehensive multi-agent mission by combining three core and essential capabilities for stronger LLM-based societal agents: 1) strategic planner with memory and reflection; 2) goal-oriented negotiate with social reasoning; 3) augmenting memory by self-play games to self-evolving without any human in the loop.

arxiv情報

著者 Zhenyu Guan,Xiangyu Kong,Fangwei Zhong,Yizhou Wang
発行日 2024-10-09 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.SI | コメントする

Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning

要約

この研究では、大規模言語モデル (LLM) の未学習の問題に対処し、最初から再トレーニングすることなく、重要なモデル ユーティリティを維持しながら、不要なデータの影響と関連するモデル機能 (著作権で保護されたデータや有害なコンテンツの生成など) を除去することを目指しています。

LLM アンラーニングの必要性が高まっているにもかかわらず、原則に基づいた最適化フレームワークが依然として不足しています。
この目的を達成するために、我々は最先端のアプローチである負の選好最適化 (NPO) を再考し、特にさまざまな難易度のデータを忘れて学習しない場合に、NPO の有効性を損なう可能性がある参照モデルのバイアスの問題を特定します。
それを踏まえて、我々は SimNPO と呼ばれるシンプルだが効果的な非学習最適化フレームワークを提案し、(単純な優先最適化のレンズを通して) 参照モデルへの依存を取り除く「単純さ」が非学習に利益をもたらすことを示します。
また、マルコフ連鎖の混合を使用した分析によって裏付けられた、SimNPO の利点についてのより深い洞察も提供します。
さらに、TOFU や MUSE などのベンチマークにおける既存の非学習ベースラインに対する SimNPO の優位性と、再学習攻撃に対する堅牢性を検証する広範な実験を紹介します。
コードは https://github.com/OPTML-Group/Unlearn-Simple で入手できます。

要約(オリジナル)

In this work, we address the problem of large language model (LLM) unlearning, aiming to remove unwanted data influences and associated model capabilities (e.g., copyrighted data or harmful content generation) while preserving essential model utilities, without the need for retraining from scratch. Despite the growing need for LLM unlearning, a principled optimization framework remains lacking. To this end, we revisit the state-of-the-art approach, negative preference optimization (NPO), and identify the issue of reference model bias, which could undermine NPO’s effectiveness, particularly when unlearning forget data of varying difficulty. Given that, we propose a simple yet effective unlearning optimization framework, called SimNPO, showing that ‘simplicity’ in removing the reliance on a reference model (through the lens of simple preference optimization) benefits unlearning. We also provide deeper insights into SimNPO’s advantages, supported by analysis using mixtures of Markov chains. Furthermore, we present extensive experiments validating SimNPO’s superiority over existing unlearning baselines in benchmarks like TOFU and MUSE, and robustness against relearning attacks. Codes are available at https://github.com/OPTML-Group/Unlearn-Simple.

arxiv情報

著者 Chongyu Fan,Jiancheng Liu,Licong Lin,Jinghan Jia,Ruiqi Zhang,Song Mei,Sijia Liu
発行日 2024-10-09 17:58:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making

要約

私たちは、具体化された意思決定のために大規模言語モデル (LLM) を評価することを目指しています。
多くの研究では、具体化された環境での意思決定に LLM を活用してきましたが、LLM は通常、さまざまなドメイン、さまざまな目的に適用され、さまざまな入力と出力に基づいて構築されるため、そのパフォーマンスについて体系的な理解がまだ不足しています。
さらに、既存の評価は最終的な成功率のみに依存する傾向があり、LLM にどのような能力が欠けているのか、どこに問題があるのか​​を特定することが困難になり、その結果、身体化されたエージェントが LLM を効果的かつ選択的に活用することが妨げられています。
これらの制限に対処するために、さまざまなタイプのタスクと LLM ベースのモジュールの入出力仕様の形式化をサポートする一般化されたインターフェイス (エンボディド エージェント インターフェイス) を提案します。
具体的には、1) 状態目標と時間的に拡張された目標の両方を含む、具体化された意思決定タスクの広範なセット、2) 意思決定に一般的に使用される 4 つの LLM ベースのモジュール (目標解釈、サブ目標分解、アクション シーケンス、および
移行モデリング、および 3) 幻覚エラー、アフォーダンス エラー、さまざまなタイプの計画エラーなど、評価をさまざまなタイプのエラーに分類するきめ細かい指標のコレクション。全体として、私たちのベンチマークは、LLM の包括的な評価を提供します。
さまざまなサブタスクのパフォーマンスを確認し、LLM を利用した組み込み型 AI システムの長所と短所を正確に特定し、組み込み型の意思決定において LLM を効果的かつ選択的に使用するための洞察を提供します。

要約(オリジナル)

We aim to evaluate Large Language Models (LLMs) for embodied decision making. While a significant body of work has been leveraging LLMs for decision making in embodied environments, we still lack a systematic understanding of their performance because they are usually applied in different domains, for different purposes, and built based on different inputs and outputs. Furthermore, existing evaluations tend to rely solely on a final success rate, making it difficult to pinpoint what ability is missing in LLMs and where the problem lies, which in turn blocks embodied agents from leveraging LLMs effectively and selectively. To address these limitations, we propose a generalized interface (Embodied Agent Interface) that supports the formalization of various types of tasks and input-output specifications of LLM-based modules. Specifically, it allows us to unify 1) a broad set of embodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpretation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics which break down evaluation into various types of errors, such as hallucination errors, affordance errors, various types of planning errors, etc. Overall, our benchmark offers a comprehensive assessment of LLMs’ performance for different subtasks, pinpointing the strengths and weaknesses in LLM-powered embodied AI systems, and providing insights for effective and selective use of LLMs in embodied decision making.

arxiv情報

著者 Manling Li,Shiyu Zhao,Qineng Wang,Kangrui Wang,Yu Zhou,Sanjana Srivastava,Cem Gokmen,Tony Lee,Li Erran Li,Ruohan Zhang,Weiyu Liu,Percy Liang,Li Fei-Fei,Jiayuan Mao,Jiajun Wu
発行日 2024-10-09 17:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO | コメントする

One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation

要約

基盤モデル (FM) は大規模なデータセットで事前トレーニングされ、特定のアプリケーションの下流タスクで微調整されます。
最も成功し、最も一般的に使用される微調整方法は、低ランク適応 (LoRA) を介して事前トレーニングされた重みを更新することです。
LoRA では、通常、モデルの重み全体に均一なランク分布を使用してランダムに初期化される新しい重み行列が導入されています。
最近の研究は、トレーニング中の重み主導の初期化または適応ランクの学習に焦点を当てています。
どちらのアプローチも単独でしか調査されていないため、収束が遅くなったり、均一なランク分布が生じたりして、次善のパフォーマンスにつながります。
活性化ベクトルのミニバッチで特異値分解を計算することにより、データ駆動型の方法で新しい重みを初期化することにより、LoRA を強化することを提案します。
次に、取得した右特異ベクトルで LoRA 行列を初期化し、すべての重み行列間でランクを再配分して分散の最大量を説明し、標準的な LoRA 微調整手順を続行します。
これにより、新しい手法である Explained Variance Adaptation (EVA) が誕生しました。
私たちは EVA を、言語の生成や理解から画像分類や強化学習に至るまで、さまざまな微調整タスクに適用します。
EVA は競合他社よりも速い収束を示し、ドメインごとの多数のタスクにわたって最高の平均スコアを達成します。

要約(オリジナル)

Foundation models (FMs) are pre-trained on large-scale datasets and then fine-tuned on a downstream task for a specific application. The most successful and most commonly used fine-tuning method is to update the pre-trained weights via a low-rank adaptation (LoRA). LoRA introduces new weight matrices that are usually initialized at random with a uniform rank distribution across model weights. Recent works focus on weight-driven initialization or learning of adaptive ranks during training. Both approaches have only been investigated in isolation, resulting in slow convergence or a uniform rank distribution, in turn leading to sub-optimal performance. We propose to enhance LoRA by initializing the new weights in a data-driven manner by computing singular value decomposition on minibatches of activation vectors. Then, we initialize the LoRA matrices with the obtained right-singular vectors and re-distribute ranks among all weight matrices to explain the maximal amount of variance and continue the standard LoRA fine-tuning procedure. This results in our new method Explained Variance Adaptation (EVA). We apply EVA to a variety of fine-tuning tasks ranging from language generation and understanding to image classification and reinforcement learning. EVA exhibits faster convergence than competitors and attains the highest average score across a multitude of tasks per domain.

arxiv情報

著者 Fabian Paischer,Lukas Hauzenberger,Thomas Schmied,Benedikt Alkin,Marc Peter Deisenroth,Sepp Hochreiter
発行日 2024-10-09 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | コメントする

Neural Circuit Architectural Priors for Quadruped Locomotion

要約

四足歩行への学習ベースのアプローチでは、完全接続 MLP などの汎用ポリシー アーキテクチャが一般的に採用されています。
このようなアーキテクチャには帰納的バイアスがほとんど含まれないため、実際には、報酬、トレーニング カリキュラム、模倣データ、または軌道ジェネレーターの形で事前分布を組み込むのが一般的です。
自然界では、動物は神経系の構造という形で先天性を持って生まれます。これは、生来の能力と効率的な学習を与えるために進化によって形作られてきました。
たとえば、馬は生まれてから数時間以内に歩くことができ、練習すればすぐに上達します。
このようなアーキテクチャ事前分布は、AI の ANN アーキテクチャでも役立ちます。
この研究では、哺乳類の四肢と脊髄の神経回路に基づいた、四足歩行のための生物学的にインスピレーションを受けた ANN アーキテクチャの利点を調査します。
私たちのアーキテクチャは、使用するデータとパラメーターを桁違いに減らしながら、優れた初期パフォーマンスと MLP に匹敵する最終パフォーマンスを実現します。
また、私たちのアーキテクチャは、タスクのバリエーションに対するより優れた一般化を示し、標準的なシミュレーションからリアルへの手法を使用せずに物理ロボットへの展開も可能にします。
この研究は、神経回路が運動のための貴重な構造的事前情報を提供できることを示し、他の感覚運動スキルにおける将来の研究を奨励します。

要約(オリジナル)

Learning-based approaches to quadruped locomotion commonly adopt generic policy architectures like fully connected MLPs. As such architectures contain few inductive biases, it is common in practice to incorporate priors in the form of rewards, training curricula, imitation data, or trajectory generators. In nature, animals are born with priors in the form of their nervous system’s architecture, which has been shaped by evolution to confer innate ability and efficient learning. For instance, a horse can walk within hours of birth and can quickly improve with practice. Such architectural priors can also be useful in ANN architectures for AI. In this work, we explore the advantages of a biologically inspired ANN architecture for quadruped locomotion based on neural circuits in the limbs and spinal cord of mammals. Our architecture achieves good initial performance and comparable final performance to MLPs, while using less data and orders of magnitude fewer parameters. Our architecture also exhibits better generalization to task variations, even admitting deployment on a physical robot without standard sim-to-real methods. This work shows that neural circuits can provide valuable architectural priors for locomotion and encourages future work in other sensorimotor skills.

arxiv情報

著者 Nikhil X. Bhattasali,Venkatesh Pattabiraman,Lerrel Pinto,Grace W. Lindsay
発行日 2024-10-09 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, cs.RO, q-bio.NC | コメントする

Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models

要約

検索拡張生成 (RAG) は、外部の知識を統合して大規模言語モデル (LLM) の制限に対処するのには効果的ですが、不完全な検索によって損なわれる可能性があり、無関係な情報、誤解を招く情報、さらには悪意のある情報が混入する可能性があります。
その重要性にもかかわらず、これまでの研究では、不完全な検索によるエラーがどのように特定され伝播するか、LLM の内部知識と外部ソースの間で潜在的な競合がどのように発生するかについて共同分析を通じて RAG の動作を調査することはほとんどありませんでした。
現実的な条件下での制御された分析を通じて、不完全な検索拡張は避けられず、非常に有害である可能性があることがわかりました。
我々は、RAG の検索後の段階で克服すべきボトルネックとして、検索による LLM の内部知識と外部知識の間の知識の競合を特定しました。
LLM に不完全な検索に対する耐性を持たせるために、LLM の内部知識から重要な情報を適応的に引き出し、ソースを意識して内部および外部の知識を繰り返し統合し、情報の信頼性に応じて答えを最終決定する新しい RAG アプローチである Astute RAG を提案します。
Gemini と Claude を使用した実験では、Astute RAG が以前の堅牢性を強化した RAG 手法よりも大幅に優れていることが実証されました。
特に、Astute RAG は、最悪のシナリオで RAG を使用しない LLM のパフォーマンスと同等またはそれを超える唯一のアプローチです。
さらなる分析により、Astute RAG が知識の競合を効果的に解決し、RAG システムの信頼性と信頼性を向上させることが明らかになりました。

要約(オリジナル)

Retrieval-Augmented Generation (RAG), while effective in integrating external knowledge to address the limitations of large language models (LLMs), can be undermined by imperfect retrieval, which may introduce irrelevant, misleading, or even malicious information. Despite its importance, previous studies have rarely explored the behavior of RAG through joint analysis on how errors from imperfect retrieval attribute and propagate, and how potential conflicts arise between the LLMs’ internal knowledge and external sources. We find that imperfect retrieval augmentation might be inevitable and quite harmful, through controlled analysis under realistic conditions. We identify the knowledge conflicts between LLM-internal and external knowledge from retrieval as a bottleneck to overcome in the post-retrieval stage of RAG. To render LLMs resilient to imperfect retrieval, we propose Astute RAG, a novel RAG approach that adaptively elicits essential information from LLMs’ internal knowledge, iteratively consolidates internal and external knowledge with source-awareness, and finalizes the answer according to information reliability. Our experiments using Gemini and Claude demonstrate that Astute RAG significantly outperforms previous robustness-enhanced RAG methods. Notably, Astute RAG is the only approach that matches or exceeds the performance of LLMs without RAG under worst-case scenarios. Further analysis reveals that Astute RAG effectively resolves knowledge conflicts, improving the reliability and trustworthiness of RAG systems.

arxiv情報

著者 Fei Wang,Xingchen Wan,Ruoxi Sun,Jiefeng Chen,Sercan Ö. Arık
発行日 2024-10-09 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Secure Video Quality Assessment Resisting Adversarial Attacks

要約

ビデオ トラフィックの急激な増加により、ビデオ品質評価 (VQA) の必要性が高まっています。
最先端のアーキテクチャを活用することで、現在の VQA モデルは人間と同等の精度を達成しました。
しかし、最近の研究により、敵対的攻撃に対する既存の VQA モデルの脆弱性が明らかになりました。
信頼性が高く実用的な評価システムを確立するには、このような悪意のある攻撃に耐えることができる安全な VQA モデルが急務です。
残念ながら、この問題を調査する試みは行われていません。
この論文ではまず、既存の VQA モデルにセキュリティを与えることを目的として、一般的な敵対的防御原則の調査を試みます。
具体的には、まず、フレーム内防御のためにビデオ フレームにランダムな空間グリッド サンプリングを導入します。
次に、ガーディアン マップを通じてピクセルごとのランダム化を設計し、敵対的な摂動をグローバルに中和します。
一方、フレーム間防御の補償としてビデオシーケンスから時間情報を抽出します。
これらの原則に基づいて、セキュリティ指向の観点から SecureVQA と呼ばれる新しい VQA フレームワークを提案します。
広範な実験により、SecureVQA は、最先端のモデルと比較して競争力のある VQA パフォーマンスを達成しながら、セキュリティにおける新しいベンチマークを設定することが示されています。
アブレーション研究では、SecureVQA の原理の分析をさらに深く掘り下げ、その一般化と主要な VQA モデルのセキュリティへの貢献を実証しています。

要約(オリジナル)

The exponential surge in video traffic has intensified the imperative for Video Quality Assessment (VQA). Leveraging cutting-edge architectures, current VQA models have achieved human-comparable accuracy. However, recent studies have revealed the vulnerability of existing VQA models against adversarial attacks. To establish a reliable and practical assessment system, a secure VQA model capable of resisting such malicious attacks is urgently demanded. Unfortunately, no attempt has been made to explore this issue. This paper first attempts to investigate general adversarial defense principles, aiming at endowing existing VQA models with security. Specifically, we first introduce random spatial grid sampling on the video frame for intra-frame defense. Then, we design pixel-wise randomization through a guardian map, globally neutralizing adversarial perturbations. Meanwhile, we extract temporal information from the video sequence as compensation for inter-frame defense. Building upon these principles, we present a novel VQA framework from the security-oriented perspective, termed SecureVQA. Extensive experiments indicate that SecureVQA sets a new benchmark in security while achieving competitive VQA performance compared with state-of-the-art models. Ablation studies delve deeper into analyzing the principles of SecureVQA, demonstrating their generalization and contributions to the security of leading VQA models.

arxiv情報

著者 Ao-Xiang Zhang,Yu Ran,Weixuan Tang,Yuan-Gen Wang,Qingxiao Guan,Chunsheng Yang
発行日 2024-10-09 13:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする

Evaluating Model Performance with Hard-Swish Activation Function Adjustments

要約

パターン認識の分野では、高い精度を達成することが不可欠です。
さまざまな複雑な画像を認識するようにモデルをトレーニングする際、可能な限り最高の精度を達成するためにモデルを微調整することが重要です。
モデルを微調整するための 1 つの戦略には、その活性化関数を変更することが含まれます。
ほとんどの事前トレーニング済みモデルはデフォルトの活性化関数として ReLU を使用しますが、Hard-Swish のような別の活性化関数に切り替えると有益な場合があります。
この研究では、さまざまな画像データセットにわたって ReLU、Swish、および Hard-Swish 活性化関数を使用してモデルのパフォーマンスを評価します。
結果は、CIFAR-10 データセットのモデルの精度が 2.06% 向上し、ATLAS データセットのモデルの精度が 0.30% 向上したことを示しています。
事前トレーニングされたモデルのアーキテクチャ内の活性化関数を変更すると、全体的な精度が向上します。

要約(オリジナル)

In the field of pattern recognition, achieving high accuracy is essential. While training a model to recognize different complex images, it is vital to fine-tune the model to achieve the highest accuracy possible. One strategy for fine-tuning a model involves changing its activation function. Most pre-trained models use ReLU as their default activation function, but switching to a different activation function like Hard-Swish could be beneficial. This study evaluates the performance of models using ReLU, Swish and Hard-Swish activation functions across diverse image datasets. Our results show a 2.06% increase in accuracy for models on the CIFAR-10 dataset and a 0.30% increase in accuracy for models on the ATLAS dataset. Modifying the activation functions in architecture of pre-trained models lead to improved overall accuracy.

arxiv情報

著者 Sai Abhinav Pydimarry,Shekhar Madhav Khairnar,Sofia Garces Palacios,Ganesh Sankaranarayanan,Darian Hoagland,Dmitry Nepomnayshy,Huu Phong Nguyen
発行日 2024-10-09 13:43:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Federated Impression for Learning with Distributed Heterogeneous Data

要約

標準的な深層学習ベースの分類アプローチは、すべてのサンプルを一元的に収集する必要があるため、現実の臨床アプリケーションでは必ずしも実用的であるとは限りません。
フェデレーテッド ラーニング (FL) は、クライアント間でデータを共有することなく分散データセットから学習できるパラダイムを提供し、プライバシーとデータ所有権の問題を軽減するのに役立ちます。
フロリダ州では、センター間のデータ収集プロトコルと患者人口統計の多様性により、異なる医療センターからのデータ間でデータの不均一性によって引き起こされる最適以下の収束が一般的です。
この研究の実験を通じて、データの異質性がローカルトレーニング中に壊滅的な忘却現象を引き起こすことを示しました。
私たちは、フェデレーテッド・インプレッションとしてグローバル情報を表す合成データを復元することにより、壊滅的な忘却を軽減する FedImpres を提案します。
これを達成するために、各コミュニケーションラウンドから得られるグローバルモデルを抽出します。
その後、合成データをローカル データと併用して、ローカル トレーニングの一般化を強化します。
広範な実験により、提案された方法がラベルの不均衡とドメインシフトを含む BloodMNIST と Retina データセットの両方で最先端のパフォーマンスを達成し、分類精度が最大 20% 向上することが示されています。

要約(オリジナル)

Standard deep learning-based classification approaches may not always be practical in real-world clinical applications, as they require a centralized collection of all samples. Federated learning (FL) provides a paradigm that can learn from distributed datasets across clients without requiring them to share data, which can help mitigate privacy and data ownership issues. In FL, sub-optimal convergence caused by data heterogeneity is common among data from different health centers due to the variety in data collection protocols and patient demographics across centers. Through experimentation in this study, we show that data heterogeneity leads to the phenomenon of catastrophic forgetting during local training. We propose FedImpres which alleviates catastrophic forgetting by restoring synthetic data that represents the global information as federated impression. To achieve this, we distill the global model resulting from each communication round. Subsequently, we use the synthetic data alongside the local data to enhance the generalization of local training. Extensive experiments show that the proposed method achieves state-of-the-art performance on both the BloodMNIST and Retina datasets, which contain label imbalance and domain shift, with an improvement in classification accuracy of up to 20%.

arxiv情報

著者 Atrin Arya,Sana Ayromlou,Armin Saadat,Purang Abolmaesumi,Xiaoxiao Li
発行日 2024-10-09 13:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.DC, cs.LG | コメントする