Unichain and Aperiodicity are Sufficient for Asymptotic Optimality of Average-Reward Restless Bandits

要約

我々は、離散時間における無限地平の平均報酬型レストレス・バンディット問題を考察する。我々は、漸進的に大きな腕の部分集合を最適分布に向かわせるように設計された新しいクラスの政策を提案する。本論文では、$N$武装問題に対して、$O(1/sqrt{N})$の最適性ギャップで漸近的に最適であることを示す。我々のアプローチは、最適への収束を保証するためにGAP(Global Attractor Property)に依存するインデックス政策や優先順位政策に焦点を当てた多くの既存の研究や、同期化仮定(Synchronization Assumption)を必要とする最近開発されたシミュレーションに基づく政策とは異なる。

要約(オリジナル)

We consider the infinite-horizon, average-reward restless bandit problem in discrete time. We propose a new class of policies that are designed to drive a progressively larger subset of arms toward the optimal distribution. We show that our policies are asymptotically optimal with an $O(1/\sqrt{N})$ optimality gap for an $N$-armed problem, assuming only a unichain and aperiodicity assumption. Our approach departs from most existing work that focuses on index or priority policies, which rely on the Global Attractor Property (GAP) to guarantee convergence to the optimum, or a recently developed simulation-based policy, which requires a Synchronization Assumption (SA).

arxiv情報

著者 Yige Hong,Qiaomin Xie,Yudong Chen,Weina Wang
発行日 2024-10-03 17:37:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 90C40, cs.LG, G.3, math.OC, math.PR | コメントする

SynthFormer: Equivariant Pharmacophore-based Generation of Molecules for Ligand-Based Drug Design

要約

創薬は複雑で資源集約的なプロセスであり、新薬を患者に届けるためには多大な時間とコストを投資する必要がある。最近の生成的機械学習(ML)手法の進歩は、化学的空間を効率的に探索することにより、初期段階の創薬を加速する有望な手段を提供する。本稿では、in silicoの生成的アプローチと実用的なin vitroの方法論の間のギャップを取り上げ、分子探索を最適化するための統合の必要性を強調する。SynthFormerは、ファーマコフォアの3D等変量エンコーダを利用し、合成可能な分子を合成ツリーとして生成する新しいMLモデルである。従来の手法とは異なり、SynthFormerは3D情報を組み込んで合成経路を提供するため、様々なタンパク質において良好なドッキングスコアを持つ分子を生成する能力が向上している。我々の貢献には、3D情報を用いた効率的な化学空間探索のための新しい方法論、3Dファーマコフォア表現を分子に変換するためのSynthformerと呼ばれる新しいアーキテクチャ、創薬最適化のための試薬を組織化する意味のある埋め込み空間が含まれる。Synthformerは、うまくドッキングする分子を生成し、合成経路に制限された後期段階の最適化を効果的に行うことができる。

要約(オリジナル)

Drug discovery is a complex and resource-intensive process, with significant time and cost investments required to bring new medicines to patients. Recent advancements in generative machine learning (ML) methods offer promising avenues to accelerate early-stage drug discovery by efficiently exploring chemical space. This paper addresses the gap between in silico generative approaches and practical in vitro methodologies, highlighting the need for their integration to optimize molecule discovery. We introduce SynthFormer, a novel ML model that utilizes a 3D equivariant encoder for pharmacophores to generate fully synthesizable molecules, constructed as synthetic trees. Unlike previous methods, SynthFormer incorporates 3D information and provides synthetic paths, enhancing its ability to produce molecules with good docking scores across various proteins. Our contributions include a new methodology for efficient chemical space exploration using 3D information, a novel architecture called Synthformer for translating 3D pharmacophore representations into molecules, and a meaningful embedding space that organizes reagents for drug discovery optimization. Synthformer generates molecules that dock well and enables effective late-stage optimization restricted by synthesis paths.

arxiv情報

著者 Zygimantas Jocys,Henriette M. G. Willems,Katayoun Farrahi
発行日 2024-10-03 17:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

E(n) Equivariant Topological Neural Networks

要約

グラフ・ニューラル・ネットワークは、ペアワイズ相互作用のモデリングに優れているが、高次の相互作用や特徴に柔軟に対応することができない。トポロジカル深層学習(TDL)は、この問題を解決する有望なツールとして最近登場した。TDLは、グラフの代わりに、単純空間やセル複合体のような組み合わせ論的位相空間を操作することで、任意の多方向、階層的な高次相互作用の原理的モデリングを可能にする。しかし、位置や速度のような幾何学的特徴をTDLに活用する方法についてはほとんど知られていない。本論文では、E(n)変量トポロジカルニューラルネットワーク(ETNNs)を紹介する。ETNNsはE(n)変量メッセージパッシングネットワークであり、グラフ、ハイパーグラフ、シンプレシャル、パス、セルコンプレックスを統合したフォーマルオブジェクトである組合せコンプレックス上で動作する。ETNNは、回転、反射、並進の等価性を尊重しながら、幾何学的なノードの特徴を取り入れている。さらに、ETNNは異種相互作用のある設定にネイティブに対応できる。我々は、幾何学的グラフのためのアーキテクチャよりもETNNの表現力が向上していることを示す理論的分析を提供する。また、TDLモデルのE(n)変量変形が、我々のフレームワークからどのように直接導出できるかを示す。i)QM9ベンチマークでの分子特性予測、ii)多解像度の不規則な地理空間データを用いた大気汚染の超局所推定のための土地利用回帰。その結果、ETNNは、SotA等変量TDLモデルに匹敵するか、それを凌駕するほど少ない計算負荷で、多様な種類の豊富な構造化データから学習するための効果的なツールであることが示され、原理的な幾何学的帰納バイアスの利点が強調された。

要約(オリジナル)

Graph neural networks excel at modeling pairwise interactions, but they cannot flexibly accommodate higher-order interactions and features. Topological deep learning (TDL) has emerged recently as a promising tool for addressing this issue. TDL enables the principled modeling of arbitrary multi-way, hierarchical higher-order interactions by operating on combinatorial topological spaces, such as simplicial or cell complexes, instead of graphs. However, little is known about how to leverage geometric features such as positions and velocities for TDL. This paper introduces E(n)-Equivariant Topological Neural Networks (ETNNs), which are E(n)-equivariant message-passing networks operating on combinatorial complexes, formal objects unifying graphs, hypergraphs, simplicial, path, and cell complexes. ETNNs incorporate geometric node features while respecting rotation, reflection, and translation equivariance. Moreover, ETNNs are natively ready for settings with heterogeneous interactions. We provide a theoretical analysis to show the improved expressiveness of ETNNs over architectures for geometric graphs. We also show how E(n)-equivariant variants of TDL models can be directly derived from our framework. The broad applicability of ETNNs is demonstrated through two tasks of vastly different scales: i) molecular property prediction on the QM9 benchmark and ii) land-use regression for hyper-local estimation of air pollution with multi-resolution irregular geospatial data. The results indicate that ETNNs are an effective tool for learning from diverse types of richly structured data, as they match or surpass SotA equivariant TDL models with a significantly smaller computational burden, thus highlighting the benefits of a principled geometric inductive bias.

arxiv情報

著者 Claudio Battiloro,Ege Karaismailoğlu,Mauricio Tec,George Dasoulas,Michelle Audirac,Francesca Dominici
発行日 2024-10-03 17:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NE | コメントする

Preble: Efficient Distributed Prompt Scheduling for LLM Serving

要約

大規模言語モデル(LLM)へのプロンプトは、単純なユーザへの質問を超えて進化している。LLMが複雑な問題を解決するために、今日では、プロンプトにドメイン固有の指示、ツールの使い方の説明、教科書の章のような長い文脈を含めることが行われている。そのため、プロンプトの多くの部分はリクエスト間で繰り返される。最近の研究では、プロンプトのKV状態をキャッシュして再利用することが提案されている。しかし、それらはすべて単一GPUによる最適化に限定されており、一方、本番のLLMサービングシステムはもともと分散型である。 本稿では、プロンプト共有をターゲットとし最適化する初の分散LLMサービングプラットフォームであるPrebleを提案する。新しいスケジューリングアルゴリズムと階層的スケジューリングメカニズムにより、KV状態の再利用と計算負荷分散を協調最適化する分散スケジューリングシステムを設計した。つのオープンソースLLMにおける実際のワークロードとリクエスト到着パターンを用いたPrebleの評価により、PrebleはSOTAサービングシステムを平均待ち時間で1.5倍から14.5倍、p99待ち時間で2倍から10倍上回ることが示された。

要約(オリジナル)

Prompts to large language models (LLMs) have evolved beyond simple user questions. For LLMs to solve complex problems, today’s practices are to include domain-specific instructions, illustration of tool usages, and/or long context such as textbook chapters in prompts. As such, many parts of prompts are repetitive across requests. Recent works propose to cache and reuse KV state of prompts. However, they are all confined to a single-GPU optimization, while production LLM serving systems are distributed by nature. This paper proposes Preble, the first distributed LLM serving platform that targets and optimizes for prompt sharing. We designed a distributed scheduling system that co-optimizes KV state reuse and computation load-balancing with a new scheduling algorithm and a hierarchical scheduling mechanism. Our evaluation of Preble with real workloads and request arrival patterns on two open-source LLMs shows that Preble outperforms the SOTA serving systems by 1.5X to 14.5X on average latency and 2X to 10X on p99 latency.

arxiv情報

著者 Vikranth Srivatsa,Zijian He,Reyna Abhyankar,Dongming Li,Yiying Zhang
発行日 2024-10-03 17:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DC, cs.LG | コメントする

Data Similarity-Based One-Shot Clustering for Multi-Task Hierarchical Federated Learning

要約

我々は、ユーザが異なるタスクの学習に取り組む階層的連合学習環境におけるクラスタ同一性推定の問題に取り組む。タスクの異質性という課題を克服するためには、同じタスクを持つユーザが同じグループに属し、他のグループと特徴抽出層の重みを共有しながら一緒に学習を行うように、ユーザをグループ化する必要がある。そのために、データの類似性に基づいてユーザを効果的に識別し、グループ化できるワンショットクラスタリングアルゴリズムを提案する。これにより、連携学習システム内において、より効率的な連携と共通レイヤ表現の共有が可能となる。提案アルゴリズムはクラスタリングプロセスを強化するだけでなく、プライバシーの懸念、通信オーバーヘッド、学習モデルや損失関数の振る舞いに関する事前知識の必要性に関連する課題も克服する。CIFAR-10やFashion MNISTなどの様々なデータセットを用いて提案アルゴリズムを検証し、精度と分散削減の点でベースラインを上回ることを示す。

要約(オリジナル)

We address the problem of cluster identity estimation in a hierarchical federated learning setting in which users work toward learning different tasks. To overcome the challenge of task heterogeneity, users need to be grouped in a way such that users with the same task are in the same group, conducting training together, while sharing the weights of feature extraction layers with the other groups. Toward that end, we propose a one-shot clustering algorithm that can effectively identify and group users based on their data similarity. This enables more efficient collaboration and sharing of a common layer representation within the federated learning system. Our proposed algorithm not only enhances the clustering process, but also overcomes challenges related to privacy concerns, communication overhead, and the need for prior knowledge about learning models or loss function behaviors. We validate our proposed algorithm using various datasets such as CIFAR-10 and Fashion MNIST, and show that it outperforms the baseline in terms of accuracy and variance reduction.

arxiv情報

著者 Abdulmoneam Ali,Ahmed Arafa
発行日 2024-10-03 17:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.IT, cs.LG, cs.NI, eess.SP, math.IT | コメントする

OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable?

要約

分布シフトは様々な形で現れるため、分布外(OOD)汎化は困難である。多数の学習アルゴリズムが存在し、それぞれが特定のOOD状況において性能を向上させることができる。我々は、OOD汎化の課題の多くは、適切なデータセットに適切なアルゴリズムを選択することにあると仮定する。しかし、このようなアルゴリズムの選択は、現実世界の複雑な変化の下では、しばしば捉えどころがない。本研究では、OOD汎化のためのアルゴリズム選択のタスクを定式化し、学習によってアプローチできるかどうかを調べる。我々はOOD-Chameleonと名付けた、タスクを候補アルゴリズムに対する教師あり分類として扱う解決策を提案する。我々は、多様なシフト(共変量シフト、ラベルシフト、偽相関)の種類、大きさ、組み合わせを表す、学習対象のデータセットを構築する。データセットの特徴からアルゴリズムの相対的な性能を予測するモデルを学習する。これにより、最適な学習戦略を事前に選択することができる。我々の実験によれば、制御可能で現実的な画像データからなる未知のデータセットにおいて、適応的選択は個々のアルゴリズムや単純な選択ヒューリスティックを凌駕する。モデルを検査することで、自明でないデータとアルゴリズムの相互作用を学習し、あるアルゴリズムが他のアルゴリズムを凌駕するための条件を明らかにする。これにより、(1)新しいアルゴリズムを設計する代わりに、既存のアルゴリズムを用いてOODの汎化を強化する、(2)データセットの特性に関する既存のアルゴリズムの適用可能性についての洞察を得る、という新たな道が開かれる。

要約(オリジナル)

Out-of-distribution (OOD) generalization is challenging because distribution shifts come in many forms. A multitude of learning algorithms exist and each can improve performance in specific OOD situations. We posit that much of the challenge of OOD generalization lies in choosing the right algorithm for the right dataset. However, such algorithm selection is often elusive under complex real-world shifts. In this work, we formalize the task of algorithm selection for OOD generalization and investigate whether it could be approached by learning. We propose a solution, dubbed OOD-Chameleon that treats the task as a supervised classification over candidate algorithms. We construct a dataset of datasets to learn from, which represents diverse types, magnitudes and combinations of shifts (covariate shift, label shift, spurious correlations). We train the model to predict the relative performance of algorithms given a dataset’s characteristics. This enables a priori selection of the best learning strategy, i.e. without training various models as needed with traditional model selection. Our experiments show that the adaptive selection outperforms any individual algorithm and simple selection heuristics, on unseen datasets of controllable and realistic image data. Inspecting the model shows that it learns non-trivial data/algorithms interactions, and reveals the conditions for any one algorithm to surpass another. This opens new avenues for (1) enhancing OOD generalization with existing algorithms instead of designing new ones, and (2) gaining insights into the applicability of existing algorithms with respect to datasets’ properties.

arxiv情報

著者 Liangze Jiang,Damien Teney
発行日 2024-10-03 17:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

An Online Automatic Modulation Classification Scheme Based on Isolation Distributional Kernel

要約

自動変調分類(AMC)は、現代の非協力的な通信ネットワークにおける重要な技術として、様々な民間および軍事アプリケーションにおいて重要な役割を果たしている。しかし、既存のAMC手法は複雑で、計算量が多いためバッチモードでしか動作しない。本稿では、分離分布カーネルに基づく新しいオンラインAMC方式を紹介する。我々の手法は2つの点で際立っている。第一に、分布カーネルを用いてベースバンド信号を表現する最初の提案である。第二に、現実的な時変チャネル条件下でのオンライン設定でうまく機能する先駆的なAMC技術を導入している。オンライン設定での広範な実験を通して、提案する分類器の有効性を実証する。我々の結果は、提案アプローチが、2つの最先端のディープラーニング分類器を含む、既存のベースラインモデルを凌駕することを示している。さらに、線形な時間複雑性を持つ、AMCのための最初のオンライン分類器として区別され、これはリアルタイムアプリケーションのための大幅な効率アップを示す。

要約(オリジナル)

Automatic Modulation Classification (AMC), as a crucial technique in modern non-cooperative communication networks, plays a key role in various civil and military applications. However, existing AMC methods usually are complicated and can work in batch mode only due to their high computational complexity. This paper introduces a new online AMC scheme based on Isolation Distributional Kernel. Our method stands out in two aspects. Firstly, it is the first proposal to represent baseband signals using a distributional kernel. Secondly, it introduces a pioneering AMC technique that works well in online settings under realistic time-varying channel conditions. Through extensive experiments in online settings, we demonstrate the effectiveness of the proposed classifier. Our results indicate that the proposed approach outperforms existing baseline models, including two state-of-the-art deep learning classifiers. Moreover, it distinguishes itself as the first online classifier for AMC with linear time complexity, which marks a significant efficiency boost for real-time applications.

arxiv情報

著者 Xinpeng Li,Zile Jiang,Kai Ming Ting,Ye Zhu
発行日 2024-10-03 17:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI

要約

知的な具現化エージェントは、長い経験の履歴を意思決定に統合することで、新しいシナリオに素早く適応する必要がある。例えば、不慣れな家にいるロボットは、最初はタスクに必要なオブジェクトの位置がわからず、非効率的な作業を行うかもしれない。しかし、経験を重ねるにつれて、環境のレイアウトを学習し、物体の位置を記憶するようになり、新しいタスクをより効率的にこなせるようになるはずだ。このような新しいタスクへの迅速な適応を可能にするために、我々は、具現化エージェントのためのコンテキスト内強化学習(RL)の新しいアプローチであるReLICを紹介する。ReLICを用いることで、エージェントは、RLによって自己生成された経験によって訓練されながら、64,000ステップのコンテキスト内経験を用いて、完全な注意を払って新しい環境に適応することができる。我々は、「部分更新」と呼ばれるオンポリシーRLのための新しいポリシー更新スキームと、具現化エージェントのための長い観測履歴の効果的な利用を可能にするSink-KVメカニズムを提案することによって、これを達成する。我々の手法は、具現化された多オブジェクトナビゲーションタスクにおいて、未見の家屋への適応において様々なメタRLベースラインを凌駕する。さらに、ReLICは、専門家の実演による訓練を受けていないにもかかわらず、数ショット模倣学習が可能であることを見出した。また、ReLICの包括的な分析を行い、大規模なRL訓練、提案する部分更新スキーム、Sink-KVの組み合わせが効果的な文脈内学習に不可欠であることを強調する。ReLICと我々の全ての実験のコードは https://github.com/aielawady/relic にある。

要約(オリジナル)

Intelligent embodied agents need to quickly adapt to new scenarios by integrating long histories of experience into decision-making. For instance, a robot in an unfamiliar house initially wouldn’t know the locations of objects needed for tasks and might perform inefficiently. However, as it gathers more experience, it should learn the layout of its environment and remember where objects are, allowing it to complete new tasks more efficiently. To enable such rapid adaptation to new tasks, we present ReLIC, a new approach for in-context reinforcement learning (RL) for embodied agents. With ReLIC, agents are capable of adapting to new environments using 64,000 steps of in-context experience with full attention while being trained through self-generated experience via RL. We achieve this by proposing a novel policy update scheme for on-policy RL called ‘partial updates” as well as a Sink-KV mechanism that enables effective utilization of a long observation history for embodied agents. Our method outperforms a variety of meta-RL baselines in adapting to unseen houses in an embodied multi-object navigation task. In addition, we find that ReLIC is capable of few-shot imitation learning despite never being trained with expert demonstrations. We also provide a comprehensive analysis of ReLIC, highlighting that the combination of large-scale RL training, the proposed partial updates scheme, and the Sink-KV are essential for effective in-context learning. The code for ReLIC and all our experiments is at https://github.com/aielawady/relic

arxiv情報

著者 Ahmad Elawady,Gunjan Chhablani,Ram Ramrakhya,Karmesh Yadav,Dhruv Batra,Zsolt Kira,Andrew Szot
発行日 2024-10-03 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Forecasting Smog Clouds With Deep Learning

要約

この概念実証研究では、2地点間の二酸化窒素(NO2)、オゾン(O3)、(微小)粒子状物質(PM10&PM2.5)の濃度と気象学的共変量の多変量時系列予測を、長短記憶(LSTM)とゲート型リカレントユニット(GRU)アーキテクチャを中心とした様々なディープラーニングモデルを用いて行う。特に、大気汚染ダイナミクスと大気科学にインスパイアされた、統合された階層的モデルアーキテクチャを提案し、マルチタスク学習を採用し、一方向モデルと完全連結モデルによってベンチマークを行う。その結果、階層型GRUが、スモッグに関連する汚染物質の濃度を予測するための、競争力のある効率的な手法であることが実証された。

要約(オリジナル)

In this proof-of-concept study, we conduct multivariate timeseries forecasting for the concentrations of nitrogen dioxide (NO2), ozone (O3), and (fine) particulate matter (PM10 & PM2.5) with meteorological covariates between two locations using various deep learning models, with a focus on long short-term memory (LSTM) and gated recurrent unit (GRU) architectures. In particular, we propose an integrated, hierarchical model architecture inspired by air pollution dynamics and atmospheric science that employs multi-task learning and is benchmarked by unidirectional and fully-connected models. Results demonstrate that, above all, the hierarchical GRU proves itself as a competitive and efficient method for forecasting the concentration of smog-related pollutants.

arxiv情報

著者 Valentijn Oldenburg,Juan Cardenas-Cartagena,Matias Valdenegro-Toro
発行日 2024-10-03 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Immunization against harmful fine-tuning attacks

要約

大規模言語モデル(LLM)は多くの場合、有害なテキスト生成を防ぐことを目的とした安全ガードで訓練される。しかし、有害なデータセット上でLLMをファインチューニングすることで、このような安全なトレーニングが解除される可能性がある。この新たな脅威(有害なファインチューニング攻撃)は、これまでの研究で特徴づけられてきたが、特に防御者がファインチューニングプロセスを制御できない場合に、このような攻撃に対する防御の構築と検証をどのように進めるべきかについては、ほとんど理解されていない。我々は、攻撃者のトレーニングバジェットに基づく正式なフレームワークを導入し、これを「免疫化」条件と呼ぶ。有害なファインチューニング問題の形式的な特徴を用いて、成功する防御がどのようなもので構成されなければならないかについての徹底的な説明を提供し、私たちに確信を与える厳密な防御研究をどのように進めるべきかについての一連のガイドラインを確立する。

要約(オリジナル)

Large Language Models (LLMs) are often trained with safety guards intended to prevent harmful text generation. However, such safety training can be removed by fine-tuning the LLM on harmful datasets. While this emerging threat (harmful fine-tuning attacks) has been characterized by previous work, there is little understanding of how we should proceed in constructing and validating defenses against these attacks especially in the case where defenders would not have control of the fine-tuning process. We introduce a formal framework based on the training budget of an attacker which we call ‘Immunization’ conditions. Using a formal characterisation of the harmful fine-tuning problem, we provide a thorough description of what a successful defense must comprise of and establish a set of guidelines on how rigorous defense research that gives us confidence should proceed.

arxiv情報

著者 Domenic Rosati,Jan Wehner,Kai Williams,Łukasz Bartoszcze,Jan Batzner,Hassan Sajjad,Frank Rudzicz
発行日 2024-10-03 16:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする