Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization

要約

条件付き分布 $pi^*(\cdot|x)$ の学習は機械学習における中心的な問題であり、一般的にペアデータ $(x,y)ΓsimΓpi^*$ を用いた教師あり手法によってアプローチされる。しかし、ペアデータの取得は、特にドメイン翻訳のような問題では、しばしば困難である。このため、限られたペアデータと、マージナル分布からの追加のペアでない i.i.d.サンプル$x \sim \pi^*_x$, $y \sim \pi^*_y$ の両方を利用する$textit{半教師付き}$モデルの開発が必要となる。このような結合データの利用は複雑であり、しばしば発見的アプローチに依存する。この問題に取り組むために、我々は、データ尤度最大化技法を通して、対になったデータと対になっていないデータの両方を$textbf{seamlessly}$統合する新しい学習パラダイムを提案する。我々は、我々のアプローチが逆エントロピー最適輸送(OT)と興味深いつながりを持つことを示す。この発見により、計算OTの最近の進歩を応用して、$pi^*(˶cdot|x)$を得る$textbf{light}$学習アルゴリズムを確立することができる。さらに、本手法が、対になったデータと対になっていないデータを同時に用いて条件付き分布を効果的に学習することを、実証実験により示す。

要約(オリジナル)

Learning conditional distributions $\pi^*(\cdot|x)$ is a central problem in machine learning, which is typically approached via supervised methods with paired data $(x,y) \sim \pi^*$. However, acquiring paired data samples is often challenging, especially in problems such as domain translation. This necessitates the development of $\textit{semi-supervised}$ models that utilize both limited paired data and additional unpaired i.i.d. samples $x \sim \pi^*_x$ and $y \sim \pi^*_y$ from the marginal distributions. The usage of such combined data is complex and often relies on heuristic approaches. To tackle this issue, we propose a new learning paradigm that integrates both paired and unpaired data $\textbf{seamlessly}$ through the data likelihood maximization techniques. We demonstrate that our approach also connects intriguingly with inverse entropic optimal transport (OT). This finding allows us to apply recent advances in computational OT to establish a $\textbf{light}$ learning algorithm to get $\pi^*(\cdot|x)$. Furthermore, we demonstrate through empirical tests that our method effectively learns conditional distributions using paired and unpaired data simultaneously.

arxiv情報

著者 Mikhail Persiianov,Arip Asadulaev,Nikita Andreev,Nikita Starodubcev,Dmitry Baranchuk,Anastasis Kratsios,Evgeny Burnaev,Alexander Korotin
発行日 2024-10-03 16:12:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

A deep learning-enabled smart garment for accurate and versatile sleep conditions monitoring in daily life

要約

ウェアラブル・スマートシステムでは、睡眠の質を高め、睡眠に関連する慢性疾患を予防するために、睡眠に関連する様々な状態を継続的にモニタリングし、正確に分類することが重要である。しかし、電気生理学的睡眠モニタリングシステムにおけるデバイスと皮膚の結合品質に対する要求は、夜間装着の快適性と信頼性を妨げている。ここでは、位置決めや皮膚準備の必要なく、弱いデバイス-皮膚結合条件下で局所的な皮膚ひずみ信号を捕捉する、洗濯可能で皮膚適合性のあるスマート衣服睡眠モニタリングシステムを報告する。プリントテキスタイルをベースとしたひずみセンサーアレイは、0.1%から10%のひずみに100という高いゲージ率で応答し、ひずみ分離プリントパターン設計により外因性モーションアーチファクトに対する独立性を示します。可逆的な糊付け処理により、衣服に直接プリントする際のインク浸透深さを制御し、性能のバッチ間ばらつきを10%未満に抑えます。ディープラーニング、説明可能な人工知能(XAI)、および転移学習データ処理と組み合わせることで、このスマート衣服は6つの睡眠状態を98.6%の精度で分類することができ、実用化において優れた説明可能性(バイアスの少ない分類)と汎化性(1クラスあたり15サンプル未満の少数ショット学習で新規ユーザーに対する95%の精度)を維持し、次世代の日常的な睡眠ヘルスケア管理への道を開く。

要約(オリジナル)

In wearable smart systems, continuous monitoring and accurate classification of different sleep-related conditions are critical for enhancing sleep quality and preventing sleep-related chronic conditions. However, the requirements for device-skin coupling quality in electrophysiological sleep monitoring systems hinder the comfort and reliability of night wearing. Here, we report a washable, skin-compatible smart garment sleep monitoring system that captures local skin strain signals under weak device-skin coupling conditions without positioning or skin preparation requirements. A printed textile-based strain sensor array responds to strain from 0.1% to 10% with a gauge factor as high as 100 and shows independence to extrinsic motion artefacts via strain-isolating printed pattern design. Through reversible starching treatment, ink penetration depth during direct printing on garments is controlled to achieve batch-to-batch performance variation < 10%. Coupled with deep learning, explainable artificial intelligence (XAI), and transfer learning data processing, the smart garment is capable of classifying six sleep states with an accuracy of 98.6%, maintaining excellent explainability (classification with low bias) and generalization (95% accuracy on new users with few-shot learning less than 15 samples per class) in practical applications, paving the way for next-generation daily sleep healthcare management.

arxiv情報

著者 Chenyu Tang,Wentian Yi,Muzi Xu,Yuxuan Jin,Zibo Zhang,Xuhang Chen,Caizhi Liao,Peter Smielewski,Luigi G. Occhipinti
発行日 2024-10-03 16:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, eess.SP | コメントする

Beyond principlism: Practical strategies for ethical AI use in research practices

要約

科学研究における生成型人工知能(AI)、特に大規模言語モデル(LLM)の急速な普及は、倫理的ガイドラインの開発を上回り、トリプル・トゥー問題(高水準の倫理的イニシアチブの多さ、文脈や実用的関連性に欠ける抽象的すぎる原則、利益や効用よりも制約やリスクに焦点を当てすぎる問題)を引き起こしている。原理主義(抽象的な倫理原則への依存)、形式主義(ルールの厳格な適用)、技術的解決主義(技術的解決への過度の強調)を含む既存のアプローチは、科学研究の実践におけるAIの倫理的課題に対処するための実践的指針をほとんど提供しない。抽象的な原則と日々の研究実践との間のギャップを埋めるために、ここではユーザー中心の現実主義にインスパイアされたアプローチを提案する。倫理的なAI利用のための5つの具体的な目標を概説する:1)バイアスの緩和戦略を含む、モデルのトレーニングと出力の理解、2)プライバシー、機密性、著作権の尊重、3)剽窃やポリシー違反の回避、4)代替手段と比較して有益なAIの適用、5)透明性と再現性のあるAIの使用。各目標には、実行可能な戦略と、誤用や是正措置の現実的な事例が添えられている。私は、倫理的なAIの適用には、単独の性能評価基準ではなく、既存の代替手段に対する有用性を評価することが必要であると主張する。さらに、AIによる研究の透明性と再現性を高めるための文書化ガイドラインを提案する。今後は、イノベーションを促進しながら責任あるAIの利用を促進するために、的を絞った専門家の育成、トレーニングプログラム、バランスの取れた執行メカニズムが必要である。これらの倫理指針を洗練させ、新たなAIの能力に適応させることで、研究の完全性を損なうことなく、科学の進歩を加速させることができる。

要約(オリジナル)

The rapid adoption of generative artificial intelligence (AI) in scientific research, particularly large language models (LLMs), has outpaced the development of ethical guidelines, leading to a Triple-Too problem: too many high-level ethical initiatives, too abstract principles lacking contextual and practical relevance, and too much focus on restrictions and risks over benefits and utilities. Existing approaches, including principlism (reliance on abstract ethical principles), formalism (rigid application of rules), and technical solutionism (overemphasis on technological fixes), offer little practical guidance for addressing ethical challenges of AI in scientific research practices. To bridge the gap between abstract principles and day-to-day research practices, a user-centered, realism-inspired approach is proposed here. It outlines five specific goals for ethical AI use: 1) understanding model training and output, including bias mitigation strategies; 2) respecting privacy, confidentiality, and copyright; 3) avoiding plagiarism and policy violations; 4) applying AI beneficially compared to alternatives; and 5) using AI transparently and reproducibly. Each goal is accompanied by actionable strategies and realistic cases of misuse and corrective measures. I argue that ethical AI application requires evaluating its utility against existing alternatives rather than isolated performance metrics. Additionally, I propose documentation guidelines to enhance transparency and reproducibility in AI-assisted research. Moving forward, we need targeted professional development, training programs, and balanced enforcement mechanisms to promote responsible AI use while fostering innovation. By refining these ethical guidelines and adapting them to emerging AI capabilities, we can accelerate scientific progress without compromising research integrity.

arxiv情報

著者 Zhicheng Lin
発行日 2024-10-03 16:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CY | コメントする

Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions

要約

サンプル効率が良く、計算可能な強化学習(RL)アルゴリズムの設計は、状態空間や行動空間が大きい、あるいは無限である環境では特に困難である。本論文では、任意のポリシーの状態-行動価値関数が与えられた特徴マップにおいて線形であるマルコフ決定過程(MDP)に対する効率的なアルゴリズムを提示することで、この取り組みを前進させる。この挑戦的な設定は、無限の状態と行動を持つ環境をモデル化することができ、古典的な線形MDPを厳密に一般化する。具体的には、問題パラメータに対して多項式である、エピソード数とコスト依存分類(CSC)オラクルへのコールを用いて、この設定において効率的に最適に近いポリシーを発見する新しいRLアルゴリズムを紹介する。注目すべきことに、我々のCSCオラクルは、特徴次元が一定である場合に効率的に実装可能であり、ホライズン多変数を持つ非凸問題を解く必要があり、ホライズンに対して指数関数的な計算コストが発生する可能性のある最新の手法に対して明らかな改善を示す。

要約(オリジナル)

Designing sample-efficient and computationally feasible reinforcement learning (RL) algorithms is particularly challenging in environments with large or infinite state and action spaces. In this paper, we advance this effort by presenting an efficient algorithm for Markov Decision Processes (MDPs) where the state-action value function of any policy is linear in a given feature map. This challenging setting can model environments with infinite states and actions, strictly generalizes classic linear MDPs, and currently lacks a computationally efficient algorithm under online access to the MDP. Specifically, we introduce a new RL algorithm that efficiently finds a near-optimal policy in this setting, using a number of episodes and calls to a cost-sensitive classification (CSC) oracle that are both polynomial in the problem parameters. Notably, our CSC oracle can be efficiently implemented when the feature dimension is constant, representing a clear improvement over state-of-the-art methods, which require solving non-convex problems with horizon-many variables and can incur computational costs that are exponential in the horizon.

arxiv情報

著者 Zakaria Mhammedi
発行日 2024-10-03 16:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

Plots Unlock Time-Series Understanding in Multimodal Models

要約

マルチモーダル基礎モデルは、テキスト以外のデータもネイティブに扱うことができるようになったが、ヘルスケア、金融、社会科学などの分野では、多次元の時系列データの分析にはまだ十分に活用されておらず、より豊かなデータ駆動型洞察の機会を逃している。本論文では、これらのモデルの既存のビジョンエンコーダを活用し、プロットを通じて時系列データを「見る」ことで、追加的でコストがかかる可能性のあるモデルトレーニングの必要性を回避する、シンプルだが効果的な手法を提案する。我々の実証的な評価では、このアプローチは生の時系列データをテキストとして提供するよりも優れており、さらに視覚的な時系列表現はモデルのAPIコストを最大90%削減するという利点もある。我々は、クリーンなデータに対する単純な関数形の同定から、ノイズの多い散布図からのトレンドの抽出まで、複雑さを増す合成データタスクを通して我々の仮説を検証する。明確な推論ステップを持つ合成タスクから、より複雑な実世界のシナリオへの一般性を実証するために、我々は我々のアプローチを消費者の健康タスクに適用する。GPTとGeminiモデルファミリーの両方において、テキスト性能よりもプロット性能(ゼロショット合成タスクでは最大120%の性能向上、実世界タスクでは最大150%の性能向上)に全体的に成功したことは、基礎モデルのネイティブ能力を最大限に活用する我々のアプローチの可能性を浮き彫りにしている。

要約(オリジナル)

While multimodal foundation models can now natively work with data beyond text, they remain underutilized in analyzing the considerable amounts of multi-dimensional time-series data in fields like healthcare, finance, and social sciences, representing a missed opportunity for richer, data-driven insights. This paper proposes a simple but effective method that leverages the existing vision encoders of these models to ‘see’ time-series data via plots, avoiding the need for additional, potentially costly, model training. Our empirical evaluations show that this approach outperforms providing the raw time-series data as text, with the additional benefit that visual time-series representations demonstrate up to a 90% reduction in model API costs. We validate our hypothesis through synthetic data tasks of increasing complexity, progressing from simple functional form identification on clean data, to extracting trends from noisy scatter plots. To demonstrate generalizability from synthetic tasks with clear reasoning steps to more complex, real-world scenarios, we apply our approach to consumer health tasks – specifically fall detection, activity recognition, and readiness assessment – which involve heterogeneous, noisy data and multi-step reasoning. The overall success in plot performance over text performance (up to an 120% performance increase on zero-shot synthetic tasks, and up to 150% performance increase on real-world tasks), across both GPT and Gemini model families, highlights our approach’s potential for making the best use of the native capabilities of foundation models.

arxiv情報

著者 Mayank Daswani,Mathias M. J. Bellaiche,Marc Wilson,Desislav Ivanov,Mikhail Papkov,Eva Schnider,Jing Tang,Kay Lamerigts,Gabriela Botea,Michael A. Sanchez,Yojan Patel,Shruthi Prabhakara,Shravya Shetty,Umesh Telang
発行日 2024-10-03 16:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

要約

ジェネラリスト型ウェブエージェントは、実際のウェブサイト上で様々なタスクを自律的にこなし、人間の生産性を大幅に向上させるという驚くべき可能性を示してきた。しかしながら、航空券の予約のようなウェブタスクは、通常、ユーザの個人情報に関与しており、ウェブエージェントが誤って危険なウェブサイトと相互作用した場合、潜在的なプライバシーリスクにさらされる可能性がある。本研究では、敵対的環境におけるジェネラリスト型ウェブエージェントのプライバシーリスクに関する初めての研究を実施することで、このギャップを埋める。まず、Webサイトへの攻撃に対する現実的な脅威モデルを提示し、ユーザの特定のPIIを盗む、またはユーザリクエスト全体を盗むという2つの敵対的ターゲットを考える。次に、Environmental Injection Attack (EIA)と呼ばれる新しい攻撃方法を提案する。EIAは、エージェントが動作する環境に適応するように設計された悪意のあるコンテンツを注入し、我々の研究は、ウェブ環境におけるプライバシーシナリオのために特別にEIAをインスタンス化する。我々は、Mind2Webの現実的なウェブサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、今日まで最も有能なジェネラリストウェブエージェントフレームワークの1つを使用して実験を実施した。その結果、EIAは特定のPIIを盗む際に最大70%のASRを達成し、完全なユーザリクエストに対しては16%のASRを達成することが実証された。さらに、ステルス性にアクセスし、防御システムのプロンプトを実験することで、EIAは検出および軽減が困難であることを示す。注目すべきは、ウェブページにうまく適応していない攻撃は、人間の検査によって検出することができ、セキュリティと自律性の間のトレードオフについての議論につながる。しかし、攻撃者の余分な努力はEIAをシームレスに適応させることができ、そのような監視は効果がない。従って、我々はさらに、人間の監視に依存しないウェブサイトの展開前と展開後の段階における防御について議論し、より高度な防御戦略を呼びかける。

要約(オリジナル)

Generalist web agents have demonstrated remarkable potential in autonomously completing a wide range of tasks on real websites, significantly boosting human productivity. However, web tasks, such as booking flights, usually involve users’ PII, which may be exposed to potential privacy risks if web agents accidentally interact with compromised websites, a scenario that remains largely unexplored in the literature. In this work, we narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a realistic threat model for attacks on the website, where we consider two adversarial targets: stealing users’ specific PII or the entire user request. Then, we propose a novel attack method, termed Environmental Injection Attack (EIA). EIA injects malicious content designed to adapt well to environments where the agents operate and our work instantiates EIA specifically for privacy scenarios in web environments. We collect 177 action steps that involve diverse PII categories on realistic websites from the Mind2Web, and conduct experiments using one of the most capable generalist web agent frameworks to date. The results demonstrate that EIA achieves up to 70% ASR in stealing specific PII and 16% ASR for full user request. Additionally, by accessing the stealthiness and experimenting with a defensive system prompt, we indicate that EIA is hard to detect and mitigate. Notably, attacks that are not well adapted for a webpage can be detected via human inspection, leading to our discussion about the trade-off between security and autonomy. However, extra attackers’ efforts can make EIA seamlessly adapted, rendering such supervision ineffective. Thus, we further discuss the defenses at the pre- and post-deployment stages of the websites without relying on human supervision and call for more advanced defense strategies.

arxiv情報

著者 Zeyi Liao,Lingbo Mo,Chejian Xu,Mintong Kang,Jiawei Zhang,Chaowei Xiao,Yuan Tian,Bo Li,Huan Sun
発行日 2024-10-03 16:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントする

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

要約

大規模言語モデル(Large Language Models:LLM)を搭載したLLMベースのエージェントは、複雑な実世界のタスクを解決するために外部ツールやメモリ機構を使用することができますが、セキュリティ上の重大な脆弱性をもたらす可能性もあります。しかし、既存の文献では、LLMベースのエージェントに対する攻撃や防御を包括的に評価していません。これを解決するために、我々は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するために設計された包括的なフレームワークであるエージェントセキュリティベンチ(ASB)を紹介します。このフレームワークには、10のシナリオ(例えば、電子商取引、自律走行、金融)、シナリオをターゲットとする10のエージェント、400以上のツール、23の異なるタイプの攻撃/防御手法、8つの評価指標が含まれます。ASBに基づき、10種類のプロンプトインジェクション攻撃、メモリポイズニング攻撃、新奇なPlan-of-Thoughtバックドア攻撃、混合攻撃、および13のLLMバックボーンに対応する10種類の防御を、合計約90,000のテストケースでベンチマークしました。我々のベンチマークの結果は、システム・プロンプト、ユーザ・プロンプト処理、ツール使用、メモリ検索を含むエージェント操作の異なる段階における重大な脆弱性を明らかにし、84.30%の最高の平均攻撃成功率を示したが、現在の防御では限られた有効性しか示さず、コミュニティのためにエージェント・セキュリティの観点で行うべき重要な作業を明らかにした。我々のコードはhttps://github.com/agiresearch/ASB。

要約(オリジナル)

Although LLM-based agents, powered by Large Language Models (LLMs), can use external tools and memory mechanisms to solve complex real-world tasks, they may also introduce critical security vulnerabilities. However, the existing literature does not comprehensively evaluate attacks and defenses against LLM-based agents. To address this, we introduce Agent Security Bench (ASB), a comprehensive framework designed to formalize, benchmark, and evaluate the attacks and defenses of LLM-based agents, including 10 scenarios (e.g., e-commerce, autonomous driving, finance), 10 agents targeting the scenarios, over 400 tools, 23 different types of attack/defense methods, and 8 evaluation metrics. Based on ASB, we benchmark 10 prompt injection attacks, a memory poisoning attack, a novel Plan-of-Thought backdoor attack, a mixed attack, and 10 corresponding defenses across 13 LLM backbones with nearly 90,000 testing cases in total. Our benchmark results reveal critical vulnerabilities in different stages of agent operation, including system prompt, user prompt handling, tool usage, and memory retrieval, with the highest average attack success rate of 84.30\%, but limited effectiveness shown in current defenses, unveiling important works to be done in terms of agent security for the community. Our code can be found at https://github.com/agiresearch/ASB.

arxiv情報

著者 Hanrong Zhang,Jingyuan Huang,Kai Mei,Yifei Yao,Zhenting Wang,Chenlu Zhan,Hongwei Wang,Yongfeng Zhang
発行日 2024-10-03 16:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR | コメントする

Undesirable Memorization in Large Language Models: A Survey

要約

最近の研究では、大規模言語モデル(LLM)の優れた能力がますます注目されるようになっているが、その一方で、LLMに隠された落とし穴と向き合うことが不可欠である。これらの課題の中でも、暗記の問題は際立っており、重大な倫理的・法的リスクをもたらしている。本稿では、LLMの暗記に関する知識の体系化(SoK)を紹介する。暗記とは、モデルが学習データからフレーズや文章を記憶し、再現する傾向のことであり、LLMに対する様々なプライバシー攻撃やセキュリティ攻撃の根本的な問題であることが示されている。 本論文では、まず記憶に関する文献を概観し、意図性、程度、検索可能性、抽象性、透明性という5つの主要な次元にわたって、記憶について検討する。次に、暗記を測定するために使用されるメトリクスと方法について説明し、暗記現象の要因について分析する。次に、暗記が特定のモデルアーキテクチャにおいてどのように現れるかを検証し、これらの影響を軽減するための戦略を探る。最後に、LLMの性能とプライバシーのバランスをとるための手法の開発、会話エージェント、検索支援型生成、多言語言語モデル、拡散言語モデルなど、特定のコンテキストにおける記憶化の分析など、近い将来の潜在的な研究テーマを特定することで、本概説を締めくくる。

要約(オリジナル)

While recent research increasingly showcases the remarkable capabilities of Large Language Models (LLMs), it’s vital to confront their hidden pitfalls. Among these challenges, the issue of memorization stands out, posing significant ethical and legal risks. In this paper, we presents a Systematization of Knowledge (SoK) on the topic of memorization in LLMs. Memorization is the effect that a model tends to store and reproduce phrases or passages from the training data and has been shown to be the fundamental issue to various privacy and security attacks against LLMs. We begin by providing an overview of the literature on the memorization, exploring it across five key dimensions: intentionality, degree, retrievability, abstraction, and transparency. Next, we discuss the metrics and methods used to measure memorization, followed by an analysis of the factors that contribute to memorization phenomenon. We then examine how memorization manifests itself in specific model architectures and explore strategies for mitigating these effects. We conclude our overview by identifying potential research topics for the near future: to develop methods for balancing performance and privacy in LLMs, and the analysis of memorization in specific contexts, including conversational agents, retrieval-augmented generation, multilingual language models, and diffusion language models.

arxiv情報

著者 Ali Satvaty,Suzan Verberne,Fatih Turkmen
発行日 2024-10-03 16:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

CAX: Cellular Automata Accelerated in JAX

要約

セルオートマトンは、神経科学、人工生命、理論物理学など、様々な科学分野にまたがる創発と自己組織化を研究するための基礎となっている。しかし、ハードウェアで高速化されたセルオートマトン・ライブラリーが存在しないため、新しい研究の方向性の探求が制限され、共同研究が妨げられ、再現性が妨げられている。本研究では、セルオートマトン研究を加速するために設計された、高性能で柔軟なオープンソースライブラリであるCAX(Cellular Automata Accelerated in JAX)を紹介する。CAXは、ユーザーフレンドリーなインターフェースを通じて、最先端の性能とモジュール設計を提供し、任意の次元数を持つ離散および連続セルオートマトンの両方をサポートすることができる。CAXの性能と柔軟性は、さまざまなベンチマークとアプリケーションによって実証されている。初等セルオートマトンやConway’s Game of Lifeのような古典的なモデルから、ニューラルセルオートマトンの成長やMNISTの数字を自己分類するような高度なアプリケーションまで、CAXはシミュレーションを最大2,000倍高速化する。さらに、CAXが研究を加速する可能性を、3つの新しいセルオートマトン実験のコレクションを紹介することによって示す。特に、単純な1次元セルオートマトンが、1D-ARC課題においてGPT-4を上回る性能を持つことを示す。

要約(オリジナル)

Cellular automata have become a cornerstone for investigating emergence and self-organization across diverse scientific disciplines, spanning neuroscience, artificial life, and theoretical physics. However, the absence of a hardware-accelerated cellular automata library limits the exploration of new research directions, hinders collaboration, and impedes reproducibility. In this work, we introduce CAX (Cellular Automata Accelerated in JAX), a high-performance and flexible open-source library designed to accelerate cellular automata research. CAX offers cutting-edge performance and a modular design through a user-friendly interface, and can support both discrete and continuous cellular automata with any number of dimensions. We demonstrate CAX’s performance and flexibility through a wide range of benchmarks and applications. From classic models like elementary cellular automata and Conway’s Game of Life to advanced applications such as growing neural cellular automata and self-classifying MNIST digits, CAX speeds up simulations up to 2,000 times faster. Furthermore, we demonstrate CAX’s potential to accelerate research by presenting a collection of three novel cellular automata experiments, each implemented in just a few lines of code thanks to the library’s modular architecture. Notably, we show that a simple one-dimensional cellular automaton can outperform GPT-4 on the 1D-ARC challenge.

arxiv情報

著者 Maxence Faldor,Antoine Cully
発行日 2024-10-03 16:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

Scalable Simulation-free Entropic Unbalanced Optimal Transport

要約

最適輸送(Optimal Transport, OT)問題は、与えられたコスト関数を最小化しながら2つの分布を結ぶ輸送写像を求める問題である。このような輸送写像を求めることは、生成モデリングや画像間の変換など、機械学習における様々な応用がある。本論文では、エントロピー的不均衡最適輸送(EUOT)問題を解くための、スケーラブルでシミュレーション不要なアプローチを紹介する。このEUOT問題の動的形式を導出し、これはSB問題の一般化である。これに基づき、確率的最適制御の解釈からEUOT問題の双対定式化と最適化条件を導出する。これらの性質を利用して、シミュレーションフリーのEUOT(SF-EUOT)と呼ばれるEUOTを解くアルゴリズムを提案する。既存のSBモデルでは、学習と評価の際に高価なシミュレーションコストが必要であるが、本モデルでは、逆数特性を利用することで、シミュレーションフリーの学習とワンステップ生成を実現する。我々のモデルは、従来のSB手法と比較して、生成モデリングや画像間の変換タスクにおいて著しく改善されたスケーラビリティを示す。

要約(オリジナル)

The Optimal Transport (OT) problem investigates a transport map that connects two distributions while minimizing a given cost function. Finding such a transport map has diverse applications in machine learning, such as generative modeling and image-to-image translation. In this paper, we introduce a scalable and simulation-free approach for solving the Entropic Unbalanced Optimal Transport (EUOT) problem. We derive the dynamical form of this EUOT problem, which is a generalization of the Schr\’odinger bridges (SB) problem. Based on this, we derive dual formulation and optimality conditions of the EUOT problem from the stochastic optimal control interpretation. By leveraging these properties, we propose a simulation-free algorithm to solve EUOT, called Simulation-free EUOT (SF-EUOT). While existing SB models require expensive simulation costs during training and evaluation, our model achieves simulation-free training and one-step generation by utilizing the reciprocal property. Our model demonstrates significantly improved scalability in generative modeling and image-to-image translation tasks compared to previous SB methods.

arxiv情報

著者 Jaemoo Choi,Jaewoong Choi
発行日 2024-10-03 16:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする