SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning

要約

大規模言語モデル (LLM) の微調整は、さまざまな下流タスクに効果的であることが証明されています。
ただし、LLM のサイズが大きくなるにつれて、バックプロパゲーションのメモリ要求はますます法外なものになります。
0 次 (ZO) 最適化手法は、勾配の推定にフォワード パスを使用することでメモリ効率の高い代替手段を提供しますが、勾配推定の分散は通常、モデルのパラメーターの次元に線形に比例するため、LLM にとっては重大な問題となります。
この論文では、LLM の高次元性によってもたらされる課題に対処するために、ランダムな部分空間 0 次 (SubZero) 最適化を提案します。
トレーニングのパフォーマンスを向上させながらメモリ消費を大幅に削減する、LLM 向けに調整された低ランク摂動を導入します。
さらに、勾配推定がバックプロパゲーション勾配に非常に近似し、従来の ZO 法よりも低い分散を示し、SGD と組み合わせた場合に確実に収束することを証明します。
実験結果は、SubZero がさまざまな言語モデリング タスクにわたって、MeZO などの標準的な ZO アプローチと比較して、微調整パフォーマンスを強化し、より高速な収束を達成することを示しています。

要約(オリジナル)

Fine-tuning Large Language Models (LLMs) has proven effective for a variety of downstream tasks. However, as LLMs grow in size, the memory demands for backpropagation become increasingly prohibitive. Zeroth-order (ZO) optimization methods offer a memory-efficient alternative by using forward passes to estimate gradients, but the variance of gradient estimates typically scales linearly with the model’s parameter dimension$\unicode{x2013}$a significant issue for LLMs. In this paper, we propose the random Subspace Zeroth-order (SubZero) optimization to address the challenges posed by LLMs’ high dimensionality. We introduce a low-rank perturbation tailored for LLMs that significantly reduces memory consumption while improving training performance. Additionally, we prove that our gradient estimation closely approximates the backpropagation gradient, exhibits lower variance than traditional ZO methods, and ensures convergence when combined with SGD. Experimental results show that SubZero enhances fine-tuning performance and achieves faster convergence compared to standard ZO approaches like MeZO across various language modeling tasks.

arxiv情報

著者 Ziming Yu,Pan Zhou,Sike Wang,Jia Li,Hua Huang
発行日 2024-10-11 17:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning はコメントを受け付けていません

An Ontology-based Approach Towards Traceable Behavior Specifications in Automated Driving

要約

自動運転システムを搭載した公共交通機関の車両には、さまざまな期待が求められます。とりわけ、その動作は安全であり、道路規則に準拠し、ユーザーにモビリティを提供する必要があります。
これは、このようなシステムの開発者にとって課題となります。開発者は、たとえばシステム設計時の要件に関して、この動作を指定する責任があります。
この記事で説明するように、この仕様には常に仮定とトレードオフの必要性が伴います。
その結果、そのような動作仕様に不備が発生し、安全でないシステム動作につながる可能性があります。
仕様の不備の特定をサポートするには、要件とそれぞれの前提を明示する必要があります。
この記事では、自動運転システム搭載車両の動作を指定するためのオントロジーベースのアプローチとして、セマンティック規範動作分析を提案します。
当社はオントロジーを使用して、対象となる運用環境の指定された動作を正式に表現し、指定された動作と対処されたステークホルダーのニーズとの間のトレーサビリティを確立します。
さらに、2 つのシナリオ例を使用して、ドイツの法的文脈における意味規範行動分析の適用を説明し、結果を評価します。
私たちの評価では、動作仕様における前提条件の明示的な文書化が、仕様の不備の特定とその対処の両方をサポートしていることが示されています。
したがって、この記事では、自動運転におけるオントロジーベースの動作仕様を促進するための要件、用語、およびそれに応じた方法論を提供します。

要約(オリジナル)

Vehicles in public traffic that are equipped with Automated Driving Systems are subject to a number of expectations: Among other aspects, their behavior should be safe, conforming to the rules of the road and provide mobility to their users. This poses challenges for the developers of such systems: Developers are responsible for specifying this behavior, for example, in terms of requirements at system design time. As we will discuss in the article, this specification always involves the need for assumptions and trade-offs. As a result, insufficiencies in such a behavior specification can occur that can potentially lead to unsafe system behavior. In order to support the identification of specification insufficiencies, requirements and respective assumptions need to be made explicit. In this article, we propose the Semantic Norm Behavior Analysis as an ontology-based approach to specify the behavior for an Automated Driving System equipped vehicle. We use ontologies to formally represent specified behavior for a targeted operational environment, and to establish traceability between specified behavior and the addressed stakeholder needs. Furthermore, we illustrate the application of the Semantic Norm Behavior Analysis in a German legal context with two example scenarios and evaluate our results. Our evaluation shows that the explicit documentation of assumptions in the behavior specification supports both the identification of specification insufficiencies and their treatment. Therefore, this article provides requirements, terminology and an according methodology to facilitate ontology-based behavior specifications in automated driving.

arxiv情報

著者 Nayel Fabian Salem,Marcus Nolte,Veronica Haber,Till Menzel,Hans Steege,Robert Graubohm,Markus Maurer
発行日 2024-10-11 17:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE, cs.SY, eess.SY | An Ontology-based Approach Towards Traceable Behavior Specifications in Automated Driving はコメントを受け付けていません

The structure of the token space for large language models

要約

大規模な言語モデルは、発話のセグメント (トークン) を高次元の周囲の潜在空間に当てはめることによって、自然言語に存在する相関構造をエンコードし、その空間でモデルが動作します。
私たちは、大規模な言語モデルの動作と制限についての基礎的な第一原理の理解を発展させるためには、このトークン部分空間の位相的および幾何学的構造を理解することが重要であると主張します。
この記事では、トークン部分空間の次元とリッチ スカラー曲率の推定量を示し、それを中程度のサイズの 3 つのオープンソース大規模言語モデル (GPT2、LLEMMA7B、および MISTRAL7B) に適用します。
これらの測定を使用する 3 つのモデルすべてで、トークン部分空間は多様体ではなく、層状多様体であり、個々の層のそれぞれでリッチ曲率が大幅に負であることがわかります。
さらに、寸法と曲率がモデルの生成の流暢性と相関していることもわかり、これらの発見がモデルの動作に影響を与えることを示唆しています。

要約(オリジナル)

Large language models encode the correlational structure present in natural language by fitting segments of utterances (tokens) into a high dimensional ambient latent space upon which the models then operate. We assert that in order to develop a foundational, first-principles understanding of the behavior and limitations of large language models, it is crucial to understand the topological and geometric structure of this token subspace. In this article, we present estimators for the dimension and Ricci scalar curvature of the token subspace, and apply it to three open source large language models of moderate size: GPT2, LLEMMA7B, and MISTRAL7B. In all three models, using these measurements, we find that the token subspace is not a manifold, but is instead a stratified manifold, where on each of the individual strata, the Ricci curvature is significantly negative. We additionally find that the dimension and curvature correlate with generative fluency of the models, which suggest that these findings have implications for model behavior.

arxiv情報

著者 Michael Robinson,Sourya Dey,Shauna Sweet
発行日 2024-10-11 17:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 53Z50, 58Z05, cs.AI, math.DG | The structure of the token space for large language models はコメントを受け付けていません

Hierarchical Universal Value Function Approximators

要約

強化学習値関数の複数の目標の集合に対するユニバーサル近似器の構築において重要な進歩があり、これはパラメータ化された方法で状態の長期収益を推定する際の重要な要素です。
オプション フレームワークを使用して、階層型汎用値関数近似器 (H-UVFA) を導入することで、これを階層型強化学習に拡張します。
これにより、時間抽象化設定で期待されるスケーリング、計画、および一般化の追加の利点を活用できるようになります。
私たちは、2 つの階層値関数 $Q(s, g, o; \theta)$ と $Q(s, g, o,
a; \θ)$。
最後に、HUVFA の一般化を実証し、HUVFA が対応する UVFA よりも優れたパフォーマンスを発揮することを示します。

要約(オリジナル)

There have been key advancements to building universal approximators for multi-goal collections of reinforcement learning value functions — key elements in estimating long-term returns of states in a parameterized manner. We extend this to hierarchical reinforcement learning, using the options framework, by introducing hierarchical universal value function approximators (H-UVFAs). This allows us to leverage the added benefits of scaling, planning, and generalization expected in temporal abstraction settings. We develop supervised and reinforcement learning methods for learning embeddings of the states, goals, options, and actions in the two hierarchical value functions: $Q(s, g, o; \theta)$ and $Q(s, g, o, a; \theta)$. Finally we demonstrate generalization of the HUVFAs and show they outperform corresponding UVFAs.

arxiv情報

著者 Rushiv Arora
発行日 2024-10-11 17:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6, stat.ML | Hierarchical Universal Value Function Approximators はコメントを受け付けていません

Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis

要約

現在、世界ではmpoxの発生が発生しており、WHOにより国際的に懸念される公衆衛生上の緊急事態が宣言されています。
ソーシャル メディア マイニングに関連するこれまでの研究では、mpox の発生に関する Instagram の投稿のデータセットの開発に焦点を当てたものはありませんでした。
この論文で紹介する研究は、この研究ギャップに対処することを目的としており、この分野に 2 つの科学的貢献をもたらします。
まず、2022 年 7 月 23 日から 2024 年 9 月 5 日までに公開された、mpox に関する 60,127 件の Instagram 投稿の多言語データセットを示しています。 https://dx.doi.org/10.21227/7fvc-y093 で入手可能なこのデータセットには、Instagram が含まれています
mpox に関する投稿が 52 か国語で掲載されています。
これらの投稿ごとに、投稿 ID、投稿の説明、公開日、言語、投稿の翻訳版 (英語への翻訳は Google Translate API を使用して実行されました) が、データセット内の個別の属性として表示されます。
このデータセットを開発した後、感情分析、ヘイトスピーチ検出、不安またはストレスの検出が実行されました。
このプロセスには、各投稿を、(i) 感情クラスの 1 つ (つまり、恐怖、驚き、喜び、悲しみ、怒り、嫌悪、または中立)、(ii) 嫌いか嫌いか、(iii) 不安/ストレスが検出されたか、または
不安やストレスは検出されませんでした。
これらの結果は、データセット内の個別の属性として表示されます。
次に、感情分析、ヘイトスピーチ分析、不安またはストレス分析を行った結果を示します。
感情クラスの変動 (恐怖、驚き、喜び、悲しみ、怒り、嫌悪感、中立) は、それぞれ 27.95%、2.57%、8.69%、5.94%、2.69%、1.53%、50.64% であることが観察されました。
ヘイトスピーチの検出に関しては、95.75% の投稿にはヘイトが含まれておらず、残りの 4.25% の投稿にはヘイトが含まれていました。
最後に、投稿の 72.05% は不安やストレスをまったく示しておらず、残りの 27.95% の投稿は何らかの形の不安やストレスを示していました。

要約(オリジナル)

The world is currently experiencing an outbreak of mpox, which has been declared a Public Health Emergency of International Concern by WHO. No prior work related to social media mining has focused on the development of a dataset of Instagram posts about the mpox outbreak. The work presented in this paper aims to address this research gap and makes two scientific contributions to this field. First, it presents a multilingual dataset of 60,127 Instagram posts about mpox, published between July 23, 2022, and September 5, 2024. The dataset, available at https://dx.doi.org/10.21227/7fvc-y093, contains Instagram posts about mpox in 52 languages. For each of these posts, the Post ID, Post Description, Date of publication, language, and translated version of the post (translation to English was performed using the Google Translate API) are presented as separate attributes in the dataset. After developing this dataset, sentiment analysis, hate speech detection, and anxiety or stress detection were performed. This process included classifying each post into (i) one of the sentiment classes, i.e., fear, surprise, joy, sadness, anger, disgust, or neutral, (ii) hate or not hate, and (iii) anxiety/stress detected or no anxiety/stress detected. These results are presented as separate attributes in the dataset. Second, this paper presents the results of performing sentiment analysis, hate speech analysis, and anxiety or stress analysis. The variation of the sentiment classes – fear, surprise, joy, sadness, anger, disgust, and neutral were observed to be 27.95%, 2.57%, 8.69%, 5.94%, 2.69%, 1.53%, and 50.64%, respectively. In terms of hate speech detection, 95.75% of the posts did not contain hate and the remaining 4.25% of the posts contained hate. Finally, 72.05% of the posts did not indicate any anxiety/stress, and the remaining 27.95% of the posts represented some form of anxiety/stress.

arxiv情報

著者 Nirmalya Thakur
発行日 2024-10-11 17:19:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.SI, H.2.8 | Mpox Narrative on Instagram: A Labeled Multilingual Dataset of Instagram Posts on Mpox for Sentiment, Hate Speech, and Anxiety Analysis はコメントを受け付けていません

Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models

要約

大規模言語モデル (LLM) などの基盤モデル (FM) は、ソフトウェア エンジニアリング (SE) を含む多くの分野に大きな影響を与えています。
SE と FM の間の相互作用により、FM の SE 実践への統合 (FM4SE) や、SE 方法論の FM への適用 (SE4FM) が生まれました。
これらの傾向に対する学術的貢献に関する文献調査はいくつか存在しますが、実践者の見解を提供するのは私たちが初めてです。
私たちは、FM を活用した調査アプローチを活用して、主要なテクノロジー企業からの 155 件の FM4SE および 997 件の SE4FM ブログ投稿を分析し、議論されている活動とタスクを体系的にラベル付けして要約します。
コード生成が最も顕著な FM4SE タスクである一方、FM はコードの理解、要約、API の推奨など、他の多くの SE アクティビティにも活用されていることがわかりました。
SE4FM のブログ投稿の大部分は、モデルのデプロイと運用、システム アーキテクチャとオーケストレーションに関するものです。
クラウド展開に重点が置かれていますが、FM を圧縮してエッジ デバイスやモバイル デバイスなどの小型デバイスに展開することへの関心が高まっています。
私たちは、学術的発見と現実世界の応用の間のギャップを埋めることを目的として、得られた洞察に触発された 8 つの将来の研究の方向性を概説します。
私たちの研究は、FM4SE および SE4FM の実践的な応用に関する一連の知識を豊かにするだけでなく、技術文献および灰色文献の領域内で文献調査を実施する際の強力かつ効率的なアプローチとしての FM の有用性を実証しています。
データセット、結果、コード、および使用されたプロンプトは、https://github.com/SAILResearch/fmse-blogs のオンライン レプリケーション パッケージにあります。

要約(オリジナル)

Foundation models (FMs) such as large language models (LLMs) have significantly impacted many fields, including software engineering (SE). The interaction between SE and FMs has led to the integration of FMs into SE practices (FM4SE) and the application of SE methodologies to FMs (SE4FM). While several literature surveys exist on academic contributions to these trends, we are the first to provide a practitioner’s view. We analyze 155 FM4SE and 997 SE4FM blog posts from leading technology companies, leveraging an FM-powered surveying approach to systematically label and summarize the discussed activities and tasks. We observed that while code generation is the most prominent FM4SE task, FMs are leveraged for many other SE activities such as code understanding, summarization, and API recommendation. The majority of blog posts on SE4FM are about model deployment & operation, and system architecture & orchestration. Although the emphasis is on cloud deployments, there is a growing interest in compressing FMs and deploying them on smaller devices such as edge or mobile devices. We outline eight future research directions inspired by our gained insights, aiming to bridge the gap between academic findings and real-world applications. Our study not only enriches the body of knowledge on practical applications of FM4SE and SE4FM but also demonstrates the utility of FMs as a powerful and efficient approach in conducting literature surveys within technical and grey literature domains. Our dataset, results, code and used prompts can be found in our online replication package at https://github.com/SAILResearch/fmse-blogs.

arxiv情報

著者 Hao Li,Cor-Paul Bezemer,Ahmed E. Hassan
発行日 2024-10-11 17:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Software Engineering and Foundation Models: Insights from Industry Blogs Using a Jury of Foundation Models はコメントを受け付けていません

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

要約

ユーザーが安全対策を回避しモデル機能を悪用するプロンプトを設計する脱獄攻撃に対する LLM の堅牢性は、主に単純なチャットボットとして機能する LLM について研究されてきました。
一方、外部ツールを使用し、複数段階のタスクを実行できる LLM エージェントは、悪用された場合に大きなリスクを引き起こす可能性がありますが、その堅牢性は依然として十分に解明されていません。
LLM エージェントの誤用に関する研究を促進するために、AgentHarm と呼ばれる新しいベンチマークを提案します。
このベンチマークには、詐欺、サイバー犯罪、ハラスメントを含む 11 の危害カテゴリをカバーする、110 の明示的に悪意のあるエージェント タスク (拡張を含めると 440) の多様なセットが含まれています。
AgentHarm で良好なスコアを獲得するには、モデルが有害なエージェントのリクエストを拒否するかどうかを測定することに加えて、ジェイルブレイクされたエージェントが攻撃後に複数ステップのタスクを完了する能力を維持する必要があります。
私たちはさまざまな主要な LLM を評価し、(1) 主要な LLM はジェイルブレイクなしで悪意のあるエージェントのリクエストに驚くほど準拠していること、(2) シンプルなユニバーサル ジェイルブレイク テンプレートを効果的にジェイルブレイク エージェントに適合させることができること、(3) これらのジェイルブレイクにより一貫性のある悪意のある攻撃が可能であることがわかりました。
マルチステップのエージェントの動作を管理し、モデルの機能を保持します。
LLM ベースのエージェントに対する攻撃と防御のシンプルかつ信頼性の高い評価を可能にするために、AgentHarm を一般公開します。
https://huggingface.co/ai-safety-institute/AgentHarm でベンチマークを公開しています。

要約(オリジナル)

The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents — which use external tools and can execute multi-stage tasks — may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. We publicly release AgentHarm to enable simple and reliable evaluation of attacks and defenses for LLM-based agents. We publicly release the benchmark at https://huggingface.co/ai-safety-institute/AgentHarm.

arxiv情報

著者 Maksym Andriushchenko,Alexandra Souly,Mateusz Dziemian,Derek Duenas,Maxwell Lin,Justin Wang,Dan Hendrycks,Andy Zou,Zico Kolter,Matt Fredrikson,Eric Winsor,Jerome Wynne,Yarin Gal,Xander Davies
発行日 2024-10-11 17:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents はコメントを受け付けていません

DeLLMa: Decision Making Under Uncertainty with Large Language Models

要約

意思決定支援ツールとしての大規模言語モデル (LLM) の可能性は、不確実性の下での意思決定という困難なタスクに直面することが多いビジネス、エンジニアリング、医学などの分野でますます研究されています。
この論文では、このようなタイプの意思決定の問題について LLM に直接指示すると、特に問題の複雑さが増すにつれて、悪い結果が生じる可能性があることを示します。
これらのタスクを支援するために、不確実な環境における意思決定の精度を高めるために設計されたフレームワークである DeLLMa (意思決定大規模言語モデル アシスタント) を提案します。
DeLLMa には、意思決定理論と効用理論の原則を利用して、推論時間推論のスケーリングにおける最近のベスト プラクティスを統合する複数ステップの推論手順が含まれており、正確で人間による監査が可能な意思決定プロセスを提供します。
私たちは複数の現実的な意思決定環境で手順を検証し、DeLLMa が主要な言語モデルの意思決定パフォーマンスを一貫して向上させ、競合する手法と比較して最大 40% の精度向上を達成できることを実証しました。
さらに、テスト時にコンピューティングをスケーリングするとパフォーマンスがどのように向上するかを示し、DELLMa のコンポーネントをベンチマークするために人間による評価を実行します。

要約(オリジナル)

The potential of large language models (LLMs) as decision support tools is increasingly being explored in fields such as business, engineering, and medicine, which often face challenging tasks of decision-making under uncertainty. In this paper, we show that directly prompting LLMs on these types of decision-making problems can yield poor results, especially as the problem complexity increases. To aid in these tasks, we propose DeLLMa (Decision-making Large Language Model assistant), a framework designed to enhance decision-making accuracy in uncertain environments. DeLLMa involves a multi-step reasoning procedure that integrates recent best practices in scaling inference-time reasoning, drawing upon principles from decision theory and utility theory, to provide an accurate and human-auditable decision-making process. We validate our procedure on multiple realistic decision-making environments, demonstrating that DeLLMa can consistently enhance the decision-making performance of leading language models, and achieve up to a 40% increase in accuracy over competing methods. Additionally, we show how performance improves when scaling compute at test time, and carry out human evaluations to benchmark components of DeLLMa.

arxiv情報

著者 Ollie Liu,Deqing Fu,Dani Yogatama,Willie Neiswanger
発行日 2024-10-11 17:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DeLLMa: Decision Making Under Uncertainty with Large Language Models はコメントを受け付けていません

IP-FL: Incentivized and Personalized Federated Learning

要約

従来のフェデレーテッド ラーニング (FL) に対する既存のインセンティブ ソリューションは、単一のグローバル目標に対する個人の貢献に焦点を当てており、複数のクラスター レベル モデルを使用したクラスター化されたパーソナライゼーションのニュアンスや、クライアントに対するパーソナライズされたモデルの魅力などの非金銭的なインセンティブを無視しています。
この論文では、まずインセンティブとパーソナライゼーションを相互に関連する課題として扱い、パーソナライズされた学習を促進するインセンティブのメカニズムでそれらを解決することを提案します。
さらに、現在の方法はクライアントのクラスタリングをアグリゲータに依存していますが、プライバシーの制約によりクライアントの機密情報にアクセスできないため制限があり、不正確なクラスタリングが発生します。
これを克服するために、私たちはクライアントが直接関与することを提案し、クライアントがデータ配布とインセンティブ主導のフィードバックに基づいてクラスター メンバーシップの好みを示すことができるようにします。
私たちのアプローチは、積極的かつ一貫した参加につながる高品質のデータによって、自己認識型のクライアントに対するパーソナライズされたモデルの魅力を強化します。
私たちの評価では、データの異質性やパーソナライゼーションへの対応を含め、既存の FL モデルと比較して、テスト精度 (8 ~ 45%)、パーソナライズされたモデルの魅力 (3 ~ 38%)、および参加率 (31 ~ 100%) が大幅に向上していることが実証されています。

要約(オリジナル)

Existing incentive solutions for traditional Federated Learning (FL) focus on individual contributions to a single global objective, neglecting the nuances of clustered personalization with multiple cluster-level models and the non-monetary incentives such as personalized model appeal for clients. In this paper, we first propose to treat incentivization and personalization as interrelated challenges and solve them with an incentive mechanism that fosters personalized learning. Additionally, current methods depend on an aggregator for client clustering, which is limited by a lack of access to clients’ confidential information due to privacy constraints, leading to inaccurate clustering. To overcome this, we propose direct client involvement, allowing clients to indicate their cluster membership preferences based on data distribution and incentive-driven feedback. Our approach enhances the personalized model appeal for self-aware clients with high-quality data leading to their active and consistent participation. Our evaluation demonstrates significant improvements in test accuracy (8-45%), personalized model appeal (3-38%), and participation rates (31-100%) over existing FL models, including those addressing data heterogeneity and personalization.

arxiv情報

著者 Ahmad Faraz Khan,Xinran Wang,Qi Le,Zain ul Abdeen,Azal Ahmad Khan,Haider Ali,Ming Jin,Jie Ding,Ali R. Butt,Ali Anwar
発行日 2024-10-11 17:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | IP-FL: Incentivized and Personalized Federated Learning はコメントを受け付けていません

PEAR: A Robust and Flexible Automation Framework for Ptychography Enabled by Multiple Large Language Model Agents

要約

タイコグラフィーは、X 線および電子顕微鏡における高度な計算によるイメージング技術です。
物理学、化学、生物学、材料科学などの科学研究分野だけでなく、半導体の特性評価などの産業用途でも広く採用されています。
実際には、高品質のタイコグラフィック画像を取得するには、多数の実験パラメータとアルゴリズムパラメータを同時に最適化する必要があります。
従来、パラメータの選択は試行錯誤に頼ることが多く、ワークフローのスループットが低下したり、人間によるバイアスが発生したりする可能性がありました。
この研究では、大規模言語モデル (LLM) を利用してタイコグラフィーのデータ分析を自動化するフレームワークである「タイコグラフィック実験分析ロボット」(PEAR) を開発します。
高い堅牢性と精度を確保するために、PEAR は知識の検索、コード生成、パラメーターの推奨、画像推論などのタスクに複数の LLM エージェントを採用しています。
私たちの調査では、LLaMA 3.1 8B のような小規模なオープンウェイト モデルであっても、PEAR のマルチエージェント設計によりワークフローの成功率が大幅に向上することが実証されています。
また、PEAR はさまざまな自動化レベルをサポートし、カスタマイズされたローカルの知識ベースと連携して動作するように設計されており、さまざまな研究環境にわたる柔軟性と適応性を確保します。

要約(オリジナル)

Ptychography is an advanced computational imaging technique in X-ray and electron microscopy. It has been widely adopted across scientific research fields, including physics, chemistry, biology, and materials science, as well as in industrial applications such as semiconductor characterization. In practice, obtaining high-quality ptychographic images requires simultaneous optimization of numerous experimental and algorithmic parameters. Traditionally, parameter selection often relies on trial and error, leading to low-throughput workflows and potential human bias. In this work, we develop the ‘Ptychographic Experiment and Analysis Robot’ (PEAR), a framework that leverages large language models (LLMs) to automate data analysis in ptychography. To ensure high robustness and accuracy, PEAR employs multiple LLM agents for tasks including knowledge retrieval, code generation, parameter recommendation, and image reasoning. Our study demonstrates that PEAR’s multi-agent design significantly improves the workflow success rate, even with smaller open-weight models such as LLaMA 3.1 8B. PEAR also supports various automation levels and is designed to work with customized local knowledge bases, ensuring flexibility and adaptability across different research environments.

arxiv情報

著者 Xiangyu Yin,Chuqiao Shi,Yimo Han,Yi Jiang
発行日 2024-10-11 17:50:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.MA | PEAR: A Robust and Flexible Automation Framework for Ptychography Enabled by Multiple Large Language Model Agents はコメントを受け付けていません