Molecular Quantum Transformer

要約

強力な注意メカニズムで有名なトランスモデルは、さまざまな人工知能タスクで最先端のパフォーマンスを達成していますが、高い計算コストやメモリの使用などの課題に直面しています。
研究者は、変圧器の設計を強化するために量子コンピューティングを調査していますが、古典的なデータではまだ限られた成功を示しています。
量子化学の量子データの量子機械学習を活用することに焦点を当てているため、特に量子化学において、分子量子系の相互作用をモデル化するための分子量子変圧器(MQT)を提案します。
量子回路を利用して分子構成に注意メカニズムを実装することにより、MQTはすべての構成の基本エネルギーを効率的に計算できます。
数値的デモンストレーションは、H_2、LiH、Beh_2、およびH_4の基本エネルギーを計算する際に、MQTが古典的な変圧器を上回り、変圧器構造における量子効果の約束を強調することを示しています。
さらに、多様な分子データでのその事前抑制能力は、新しい分子の効率的な学習を促進し、最小限の追加労力で複雑な分子システムへの適用性を拡大します。
私たちの方法は、基底状態のエネルギーを推定し、量子化学と材料科学の新しい道を開くための既存の量子アルゴリズムに代わるものを提供します。

要約(オリジナル)

The Transformer model, renowned for its powerful attention mechanism, has achieved state-of-the-art performance in various artificial intelligence tasks but faces challenges such as high computational cost and memory usage. Researchers are exploring quantum computing to enhance the Transformer’s design, though it still shows limited success with classical data. With a growing focus on leveraging quantum machine learning for quantum data, particularly in quantum chemistry, we propose the Molecular Quantum Transformer (MQT) for modeling interactions in molecular quantum systems. By utilizing quantum circuits to implement the attention mechanism on the molecular configurations, MQT can efficiently calculate ground-state energies for all configurations. Numerical demonstrations show that in calculating ground-state energies for H_2, LiH, BeH_2, and H_4, MQT outperforms the classical Transformer, highlighting the promise of quantum effects in Transformer structures. Furthermore, its pretraining capability on diverse molecular data facilitates the efficient learning of new molecules, extending its applicability to complex molecular systems with minimal additional effort. Our method offers an alternative to existing quantum algorithms for estimating ground-state energies, opening new avenues in quantum chemistry and materials science.

arxiv情報

著者 Yuichi Kamata,Quoc Hoan Tran,Yasuhiro Endo,Hirotaka Oshima
発行日 2025-03-27 16:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | Molecular Quantum Transformer はコメントを受け付けていません

Energy Minimization for Participatory Federated Learning in IoT Analyzed via Game Theory

要約

モノのインターネットには、多くのシナリオでインテリジェントな意思決定が必要です。
この目的のために、センシングやコンピューティングのために個々のノードで利用可能なリソース、またはその両方を活用できます。
これにより、それぞれ参加型センシングとフェデレーション学習として知られるアプローチが生じます。
ゲーム理論的な意思決定にローカルノードに力を与えることに基づいた分散アプローチを通じて、両方の同時実装を調査します。
エネルギー最小化のグローバルな目的は、複数の学習ラウンドでデータを検知および送信するためのローカル支出の個々のノードの最適化と組み合わされます。
実際のデータを使用したシミュレートされたネットワークシナリオの理論的フレームワークと実験の両方に基づいて、この手法の広範な評価を提示します。
このような分散アプローチは、データコレクターの集中監督なしで、連合学習のために望ましいレベルの精度に達する可能性があります。
ただし、単一ノードのローカルコストに起因する重量に応じて、アナーキーの価格が大幅に高くなる可能性があります(1.28以降)。
したがって、おそらく単一ノードの情報の年齢に基づいて、インセンティブメカニズムの必要性を主張します。

要約(オリジナル)

The Internet of Things requires intelligent decision making in many scenarios. To this end, resources available at the individual nodes for sensing or computing, or both, can be leveraged. This results in approaches known as participatory sensing and federated learning, respectively. We investigate the simultaneous implementation of both, through a distributed approach based on empowering local nodes with game theoretic decision making. A global objective of energy minimization is combined with the individual node’s optimization of local expenditure for sensing and transmitting data over multiple learning rounds. We present extensive evaluations of this technique, based on both a theoretical framework and experiments in a simulated network scenario with real data. Such a distributed approach can reach a desired level of accuracy for federated learning without a centralized supervision of the data collector. However, depending on the weight attributed to the local costs of the single node, it may also result in a significantly high Price of Anarchy (from 1.28 onwards). Thus, we argue for the need of incentive mechanisms, possibly based on Age of Information of the single nodes.

arxiv情報

著者 Alessandro Buratto,Elia Guerra,Marco Miozzo,Paolo Dini,Leonardo Badia
発行日 2025-03-27 17:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA | Energy Minimization for Participatory Federated Learning in IoT Analyzed via Game Theory はコメントを受け付けていません

A Selective Homomorphic Encryption Approach for Faster Privacy-Preserving Federated Learning

要約

Federated Learningは、分散型デバイスまたはサーバーのトレーニングモデルをサポートする機械学習方法であり、それぞれがローカルデータを保持してデータ交換の必要性を削除します。
このアプローチは、ヘルスケアで特に役立ちます。これは、共有する必要なく、機密データのトレーニングを可能にするためです。
連邦学習の性質は、コミュニケーション中のデータリークの懸念により、堅牢なセキュリティ上の注意事項を必要とします。
この問題に対処するために、優れた実行パフォーマンスを達成しながらデータの漏れを最小限に抑えるために、選択的暗号化、同型暗号化、差別的なプライバシー、およびビットごとのスクランブルを採用する新しいアプローチを提案します。
私たちの手法であるFAS(高速で安全な連邦学習)は、医療画像データに関する深い学習モデルを訓練するために使用されます。
フラワーフレームワークを使用して手法を実装し、選択的な同種暗号化も使用する最先端の連邦学習アプローチと比較しました。
私たちの実験は、11の物理マシンのクラスターで実行され、さまざまなデータセットで実際のフェデレーション学習シナリオを作成しました。
私たちのアプローチは、モデルの重みに完全に準同型の暗号化を適用するよりも最大90 \%の速さであることが観察されました。
さらに、競合他社が必要とし、総実行時間の面で最大46%節約できる前脱型ステップを回避できます。
私たちのアプローチはより速くなりましたが、競合他社と同様のセキュリティ結果が得られました。

要約(オリジナル)

Federated learning is a machine learning method that supports training models on decentralized devices or servers, where each holds its local data, removing the need for data exchange. This approach is especially useful in healthcare, as it enables training on sensitive data without needing to share them. The nature of federated learning necessitates robust security precautions due to data leakage concerns during communication. To address this issue, we propose a new approach that employs selective encryption, homomorphic encryption, differential privacy, and bit-wise scrambling to minimize data leakage while achieving good execution performance. Our technique , FAS (fast and secure federated learning) is used to train deep learning models on medical imaging data. We implemented our technique using the Flower framework and compared with a state-of-the-art federated learning approach that also uses selective homomorphic encryption. Our experiments were run in a cluster of eleven physical machines to create a real-world federated learning scenario on different datasets. We observed that our approach is up to 90\% faster than applying fully homomorphic encryption on the model weights. In addition, we can avoid the pretraining step that is required by our competitor and can save up to 46% in terms of total execution time. While our approach was faster, it obtained similar security results as the competitor.

arxiv情報

著者 Abdulkadir Korkmaz,Praveen Rao
発行日 2025-03-27 17:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.2.4, cs.CR, cs.DC, cs.LG | A Selective Homomorphic Encryption Approach for Faster Privacy-Preserving Federated Learning はコメントを受け付けていません

A Unified Framework for Diffusion Bridge Problems: Flow Matching and Schrödinger Matching into One

要約

ブリッジの問題は、与えられた分布を2つ橋渡しするSDE(または時にはオード)を見つけることです。
ブリッジ問題のアプリケーション領域は非常に大きく、その中で最近の生成モデリング(条件付きまたは無条件の画像生成など)が最も人気があります。
また、1世紀にわたって広く知られている問題である有名なSchr \ ‘{o}ディンガーブリッジの問題は、橋の問題の特別な例です。
ディープラーニング時代のブリッジ問題に取り組むための2つの最も一般的なアルゴリズムは次のとおりです。(条件付き)フローマッチングと反復フィッティングアルゴリズムは、前者がODEソリューションに限定され、後者は特にSCHR \ ‘{O}ディンガーブリッジの問題です。
この記事の主な貢献は、2つの折り目です。i)これらのアルゴリズムの簡潔なレビューを、ある程度技術的な詳細を提供します。
ii)これらの一見無関係なアルゴリズム(およびそのバリエーション)を1つに包み込む新しい統一された視点とフレームワークを提案します。
特に、統一されたフレームワークは、フローマッチング(FM)アルゴリズム、(ミニバッチ)最適なトランスポートFMアルゴリズム、(ミニバッチ)schr \ ‘{o}ディンガーブリッジFMアルゴリズム、およびディンガーブリッジマッチング(dsbm)アルゴリズムとしてのディンガーブリッジのディンガーブリッジをインスタンス化できることを示しています。
この統一されたフレームワークは、より一般的かつ柔軟な視点で橋の問題を見るのに役立つと考えており、その結果、研究者と実践者がその分野で新しい橋アルゴリズムを開発するのに役立つと考えています。

要約(オリジナル)

The bridge problem is to find an SDE (or sometimes an ODE) that bridges two given distributions. The application areas of the bridge problem are enormous, among which the recent generative modeling (e.g., conditional or unconditional image generation) is the most popular. Also the famous Schr\'{o}dinger bridge problem, a widely known problem for a century, is a special instance of the bridge problem. Two most popular algorithms to tackle the bridge problems in the deep learning era are: (conditional) flow matching and iterative fitting algorithms, where the former confined to ODE solutions, and the latter specifically for the Schr\'{o}dinger bridge problem. The main contribution of this article is in two folds: i) We provide concise reviews of these algorithms with technical details to some extent; ii) We propose a novel unified perspective and framework that subsumes these seemingly unrelated algorithms (and their variants) into one. In particular, we show that our unified framework can instantiate the Flow Matching (FM) algorithm, the (mini-batch) optimal transport FM algorithm, the (mini-batch) Schr\'{o}dinger bridge FM algorithm, and the deep Schr\'{o}dinger bridge matching (DSBM) algorithm as its special cases. We believe that this unified framework will be useful for viewing the bridge problems in a more general and flexible perspective, and in turn can help researchers and practitioners to develop new bridge algorithms in their fields.

arxiv情報

著者 Minyoung Kim
発行日 2025-03-27 17:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Unified Framework for Diffusion Bridge Problems: Flow Matching and Schrödinger Matching into One はコメントを受け付けていません

Partial Gromov-Wasserstein Metric

要約

Gromov-Wasserstein(GW)距離は、さまざまなメトリック空間での測定値の比較を可能にするため、近年、機械学習コミュニティへの関心が高まっています。
古典的なGW問題の平等な質量要件によって課される制限を克服するために、研究者は不均衡な設定での適用を調査し始めました。
ただし、不均衡なGW(UGW)は、2つのメトリック測定スペース(MMスペース)間の厳密なメトリック/距離ではなく、不一致とのみ見なすことができます。
この論文では、部分的なグロモフヴァッシェルスタイン(PGW)と呼ばれるUGW問題の特定のケースを提案します。
PGWはMMスペースの間の明確なメトリックであることを確立し、PGW問題のミニマイザーの存在やPGWとGWの関係など、その理論的特性について議論します。
次に、PGWの問題を解決するためのフランクウルフアルゴリズムの2つのバリエーションを提案し、それらが数学的および計算的に同等であることを示します。
さらに、PGWメトリックに基づいて、MMスペースの速度ターの類似の概念を紹介します。
最後に、既存のベースラインと比較して、形状マッチング、形状検索、形状補間などのアプリケーションでのPGWメトリックおよび関連ソルバーの有効性を検証します。
私たちのコードは、https://github.com/mint-vu/pgw_metricで入手できます。

要約(オリジナル)

The Gromov-Wasserstein (GW) distance has gained increasing interest in the machine learning community in recent years, as it allows for the comparison of measures in different metric spaces. To overcome the limitations imposed by the equal mass requirements of the classical GW problem, researchers have begun exploring its application in unbalanced settings. However, Unbalanced GW (UGW) can only be regarded as a discrepancy rather than a rigorous metric/distance between two metric measure spaces (mm-spaces). In this paper, we propose a particular case of the UGW problem, termed Partial Gromov-Wasserstein (PGW). We establish that PGW is a well-defined metric between mm-spaces and discuss its theoretical properties, including the existence of a minimizer for the PGW problem and the relationship between PGW and GW, among others. We then propose two variants of the Frank-Wolfe algorithm for solving the PGW problem and show that they are mathematically and computationally equivalent. Moreover, based on our PGW metric, we introduce the analogous concept of barycenters for mm-spaces. Finally, we validate the effectiveness of our PGW metric and related solvers in applications such as shape matching, shape retrieval, and shape interpolation, comparing them against existing baselines. Our code is available at https://github.com/mint-vu/PGW_Metric.

arxiv情報

著者 Yikun Bai,Rocio Diaz Martin,Abihith Kothapalli,Hengrong Du,Xinran Liu,Soheil Kolouri
発行日 2025-03-27 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Partial Gromov-Wasserstein Metric はコメントを受け付けていません

Generalizable Prompt Learning of CLIP: A Brief Overview

要約

クリップなどの既存のビジョン言語モデル(VLM)は、さまざまな下流タスクにわたってよく一般化する印象的な機能を示しています。
これらのモデルは、視覚情報とテキスト情報の相乗効果を活用して、画像やテキストに存在するコンテンツを統一された方法で理解し、推論できるようにします。
この記事では、実験データやいくつかの方法の技術的特性を含む、少数のショットの迅速な学習に基づいたクリップの簡単な概要を説明します。
このレビューの目的は、15のデータセットにわたって分類のための少数のショットトレーニングを通じて、一般化可能なクリップの調査を開始したばかりの研究者に参照を提供し、他の下流タスクの研究者によるこの分野の統合を促進することです。

要約(オリジナル)

Existing vision-language models (VLMs) such as CLIP have showcased an impressive capability to generalize well across various downstream tasks. These models leverage the synergy between visual and textual information, enabling them to understand and reason about the content present in images and text in a unified manner. This article provides a brief overview of CLIP based on few-shot prompt learning, including experimental data and technical characteristics of some methods. The purpose of this review is to provide a reference for researchers who have just started their research in generalizable prompting of CLIP through few-shot training for classification across 15 datasets and also to facilitate the integration of this field by researchers in other downstream tasks.

arxiv情報

著者 Fangming Cui,Yonggang Zhang,Xuan Wang,Xule Wang,Liang Xiao
発行日 2025-03-27 09:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Generalizable Prompt Learning of CLIP: A Brief Overview はコメントを受け付けていません

ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback

要約

要約の改良は、多次元に拡張する際に課題に直面します。
この論文では、フィードバックに関する反射的推論を通じて複数の次元を強化する強力な要約改良パイプラインであるRefeedを紹介します。
これを実現するために、反射的推論で軽量モデルをトレーニングするために最適化された大規模なロングコットベースのデータセットであるSumFeed-Cotをリリースします。
私たちの実験は、次元の数、フィードバックの露出、および推論ポリシーの改良性のパフォーマンスにどのように影響するか、反射的推論を強調し、複数のフィードバックに対処することが、次元間のトレードオフを緩和するために重要であることを明らかにします。
さらに、Refeedは、ノイズの多いフィードバックとフィードバックの順序に対して堅牢です。
最後に、私たちの発見は、適切な目標とガイドラインでデータを作成することは、効果的な推論の基本的な柱であることを強調しています。
データセットとモデルがリリースされます。

要約(オリジナル)

Summarization refinement faces challenges when extending to multi-dimension. In this paper, we introduce ReFeed, a powerful summarization refinement pipeline that enhances multiple dimensions through reflective reasoning on feedback. To achieve this, we release SumFeed-CoT, a large-scale Long-CoT-based dataset optimized for training a lightweight model with reflective reasoning. Our experiments reveal how the number of dimensions, feedback exposure, and reasoning policy influence refinement performance, highlighting reflective reasoning and simultaneously addressing multiple feedback is crucial to mitigate trade-off between dimensions. Furthermore, ReFeed is robust to noisy feedback and feedback order. Lastly, our finding emphasizes that creating data with a proper goal and guideline constitutes a fundamental pillar of effective reasoning. The dataset and model will be released.

arxiv情報

著者 Taewon Yun,Jihwan Oh,Hyangsuk Min,Yuho Lee,Jihwan Bang,Jason Cai,Hwanjun Song
発行日 2025-03-27 10:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback はコメントを受け付けていません

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

要約

マルチモーダル大手言語モデル(MLLMS)の急速な進歩は、さまざまなマルチモーダルタスクに大きな影響を与えています。
ただし、これらのモデルは、3D環境内で空間的理解を必要とするタスクの課題に直面しています。
ポイントクラウド機能を組み込むなど、MLLMを強化する努力が行われましたが、モデルの学習表現と3Dシーンの固有の複雑さの間にかなりのギャップが残っています。
この矛盾は、主に2Dデータに対するMLLMのトレーニングに大きく掲載されており、3Dスペースの理解における有効性を制限しています。
この問題に対処するために、この論文では、3Dシーンの理解のために、新しいジェネラリストモデル、つまりVideo-3D LLMを提案します。
3Dシーンをダイナミックなビデオとして扱い、これらの表現にエンコードする3Dポジションを組み込むことにより、ビデオ3D LLMはビデオ表現を実際の空間コンテキストとより正確に調整します。
さらに、計算コストとパフォーマンスのトレードオフを最適化するために、最大のカバレッジサンプリング手法を実装しました。
広範な実験は、我々のモデルが、ScanRefer、Multi3Drefer、Scan2Cap、ScanqA、SQA3Dなど、いくつかの3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models’ learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. In addition, we have implemented a maximum coverage sampling technique to optimize the trade-off between computational cost and performance. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

arxiv情報

著者 Duo Zheng,Shijia Huang,Liwei Wang
発行日 2025-03-27 10:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding はコメントを受け付けていません

Fine-Tuning LLMs on Small Medical Datasets: Text Classification and Normalization Effectiveness on Cardiology reports and Discharge records

要約

テキスト分類および指定されたエンティティ認識タスクのために、小さな医療データセットで大規模な言語モデル(LLM)を微調整する有効性を調査します。
ドイツの心臓病レポートデータセットとI2B2喫煙チャレンジデータセットを使用して、限られたトレーニングデータで局所的に小型LLMを微調整すると、パフォーマンスが改善され、より大きなモデルに匹敵する結果を達成できることを実証します。
私たちの実験は、微調整が両方のタスクのパフォーマンスを改善することを示しており、顕著な利益は200〜300のトレーニングの例で観察されます。
全体として、この研究は、臨床ワークフローを自動化し、非構造化された医療テキストから構造化データを効率的に抽出するためのLLMのタスク固有の微調整の可能性を強調しています。

要約(オリジナル)

We investigate the effectiveness of fine-tuning large language models (LLMs) on small medical datasets for text classification and named entity recognition tasks. Using a German cardiology report dataset and the i2b2 Smoking Challenge dataset, we demonstrate that fine-tuning small LLMs locally on limited training data can improve performance achieving comparable results to larger models. Our experiments show that fine-tuning improves performance on both tasks, with notable gains observed with as few as 200-300 training examples. Overall, the study highlights the potential of task-specific fine-tuning of LLMs for automating clinical workflows and efficiently extracting structured data from unstructured medical text.

arxiv情報

著者 Noah Losch,Lucas Plagwitz,Antonius Büscher,Julian Varghese
発行日 2025-03-27 10:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG, I.2.6 | Fine-Tuning LLMs on Small Medical Datasets: Text Classification and Normalization Effectiveness on Cardiology reports and Discharge records はコメントを受け付けていません

From User Preferences to Optimization Constraints Using Large Language Models

要約

この作業では、大規模な言語モデル(LLM)を使用して、ユーザーの好みを家電製品のエネルギー最適化制約に変換します。
自然言語のユーザー発話が、再生可能エネルギーコミュニティ(REC)のより広いコンテキストおよびイタリアのシナリオの中で、スマートアプライアンスの正式な制約に変換されるタスクについて説明します。
イタリアのゼロショット、ワンショット、および少数のショット学習設定に頼るこれらの設定を翻訳する際に、現在利用可能なさまざまなLLMの有効性を評価します。
私たちの貢献には、このタスクのベースラインパフォーマンスの確立、さらなる研究のためにデータセットとコードを公開し、この特定のドメインで観察されたベストプラクティスとLLMの制限に関する洞察を提供することが含まれます。

要約(オリジナル)

This work explores using Large Language Models (LLMs) to translate user preferences into energy optimization constraints for home appliances. We describe a task where natural language user utterances are converted into formal constraints for smart appliances, within the broader context of a renewable energy community (REC) and in the Italian scenario. We evaluate the effectiveness of various LLMs currently available for Italian in translating these preferences resorting to classical zero-shot, one-shot, and few-shot learning settings, using a pilot dataset of Italian user requests paired with corresponding formal constraint representation. Our contributions include establishing a baseline performance for this task, publicly releasing the dataset and code for further research, and providing insights on observed best practices and limitations of LLMs in this particular domain

arxiv情報

著者 Manuela Sanguinetti,Alessandra Perniciano,Luca Zedda,Andrea Loddo,Cecilia Di Ruberto,Maurizio Atzori
発行日 2025-03-27 10:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From User Preferences to Optimization Constraints Using Large Language Models はコメントを受け付けていません