Plots Unlock Time-Series Understanding in Multimodal Models

要約

マルチモーダル基礎モデルは、テキスト以外のデータもネイティブに扱うことができるようになったが、ヘルスケア、金融、社会科学などの分野では、多次元の時系列データの分析にはまだ十分に活用されておらず、より豊かなデータ駆動型洞察の機会を逃している。本論文では、これらのモデルの既存のビジョンエンコーダを活用し、プロットを通じて時系列データを「見る」ことで、追加的でコストがかかる可能性のあるモデルトレーニングの必要性を回避する、シンプルだが効果的な手法を提案する。我々の実証的な評価では、このアプローチは生の時系列データをテキストとして提供するよりも優れており、さらに視覚的な時系列表現はモデルのAPIコストを最大90%削減するという利点もある。我々は、クリーンなデータに対する単純な関数形の同定から、ノイズの多い散布図からのトレンドの抽出まで、複雑さを増す合成データタスクを通して我々の仮説を検証する。明確な推論ステップを持つ合成タスクから、より複雑な実世界のシナリオへの一般性を実証するために、我々は我々のアプローチを消費者の健康タスクに適用する。GPTとGeminiモデルファミリーの両方において、テキスト性能よりもプロット性能(ゼロショット合成タスクでは最大120%の性能向上、実世界タスクでは最大150%の性能向上)に全体的に成功したことは、基礎モデルのネイティブ能力を最大限に活用する我々のアプローチの可能性を浮き彫りにしている。

要約(オリジナル)

While multimodal foundation models can now natively work with data beyond text, they remain underutilized in analyzing the considerable amounts of multi-dimensional time-series data in fields like healthcare, finance, and social sciences, representing a missed opportunity for richer, data-driven insights. This paper proposes a simple but effective method that leverages the existing vision encoders of these models to ‘see’ time-series data via plots, avoiding the need for additional, potentially costly, model training. Our empirical evaluations show that this approach outperforms providing the raw time-series data as text, with the additional benefit that visual time-series representations demonstrate up to a 90% reduction in model API costs. We validate our hypothesis through synthetic data tasks of increasing complexity, progressing from simple functional form identification on clean data, to extracting trends from noisy scatter plots. To demonstrate generalizability from synthetic tasks with clear reasoning steps to more complex, real-world scenarios, we apply our approach to consumer health tasks – specifically fall detection, activity recognition, and readiness assessment – which involve heterogeneous, noisy data and multi-step reasoning. The overall success in plot performance over text performance (up to an 120% performance increase on zero-shot synthetic tasks, and up to 150% performance increase on real-world tasks), across both GPT and Gemini model families, highlights our approach’s potential for making the best use of the native capabilities of foundation models.

arxiv情報

著者 Mayank Daswani,Mathias M. J. Bellaiche,Marc Wilson,Desislav Ivanov,Mikhail Papkov,Eva Schnider,Jing Tang,Kay Lamerigts,Gabriela Botea,Michael A. Sanchez,Yojan Patel,Shruthi Prabhakara,Shravya Shetty,Umesh Telang
発行日 2024-10-03 16:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする

EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

要約

ジェネラリスト型ウェブエージェントは、実際のウェブサイト上で様々なタスクを自律的にこなし、人間の生産性を大幅に向上させるという驚くべき可能性を示してきた。しかしながら、航空券の予約のようなウェブタスクは、通常、ユーザの個人情報に関与しており、ウェブエージェントが誤って危険なウェブサイトと相互作用した場合、潜在的なプライバシーリスクにさらされる可能性がある。本研究では、敵対的環境におけるジェネラリスト型ウェブエージェントのプライバシーリスクに関する初めての研究を実施することで、このギャップを埋める。まず、Webサイトへの攻撃に対する現実的な脅威モデルを提示し、ユーザの特定のPIIを盗む、またはユーザリクエスト全体を盗むという2つの敵対的ターゲットを考える。次に、Environmental Injection Attack (EIA)と呼ばれる新しい攻撃方法を提案する。EIAは、エージェントが動作する環境に適応するように設計された悪意のあるコンテンツを注入し、我々の研究は、ウェブ環境におけるプライバシーシナリオのために特別にEIAをインスタンス化する。我々は、Mind2Webの現実的なウェブサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、今日まで最も有能なジェネラリストウェブエージェントフレームワークの1つを使用して実験を実施した。その結果、EIAは特定のPIIを盗む際に最大70%のASRを達成し、完全なユーザリクエストに対しては16%のASRを達成することが実証された。さらに、ステルス性にアクセスし、防御システムのプロンプトを実験することで、EIAは検出および軽減が困難であることを示す。注目すべきは、ウェブページにうまく適応していない攻撃は、人間の検査によって検出することができ、セキュリティと自律性の間のトレードオフについての議論につながる。しかし、攻撃者の余分な努力はEIAをシームレスに適応させることができ、そのような監視は効果がない。従って、我々はさらに、人間の監視に依存しないウェブサイトの展開前と展開後の段階における防御について議論し、より高度な防御戦略を呼びかける。

要約(オリジナル)

Generalist web agents have demonstrated remarkable potential in autonomously completing a wide range of tasks on real websites, significantly boosting human productivity. However, web tasks, such as booking flights, usually involve users’ PII, which may be exposed to potential privacy risks if web agents accidentally interact with compromised websites, a scenario that remains largely unexplored in the literature. In this work, we narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a realistic threat model for attacks on the website, where we consider two adversarial targets: stealing users’ specific PII or the entire user request. Then, we propose a novel attack method, termed Environmental Injection Attack (EIA). EIA injects malicious content designed to adapt well to environments where the agents operate and our work instantiates EIA specifically for privacy scenarios in web environments. We collect 177 action steps that involve diverse PII categories on realistic websites from the Mind2Web, and conduct experiments using one of the most capable generalist web agent frameworks to date. The results demonstrate that EIA achieves up to 70% ASR in stealing specific PII and 16% ASR for full user request. Additionally, by accessing the stealthiness and experimenting with a defensive system prompt, we indicate that EIA is hard to detect and mitigate. Notably, attacks that are not well adapted for a webpage can be detected via human inspection, leading to our discussion about the trade-off between security and autonomy. However, extra attackers’ efforts can make EIA seamlessly adapted, rendering such supervision ineffective. Thus, we further discuss the defenses at the pre- and post-deployment stages of the websites without relying on human supervision and call for more advanced defense strategies.

arxiv情報

著者 Zeyi Liao,Lingbo Mo,Chejian Xu,Mintong Kang,Jiawei Zhang,Chaowei Xiao,Yuan Tian,Bo Li,Huan Sun
発行日 2024-10-03 16:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントする

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

要約

大規模言語モデル(Large Language Models:LLM)を搭載したLLMベースのエージェントは、複雑な実世界のタスクを解決するために外部ツールやメモリ機構を使用することができますが、セキュリティ上の重大な脆弱性をもたらす可能性もあります。しかし、既存の文献では、LLMベースのエージェントに対する攻撃や防御を包括的に評価していません。これを解決するために、我々は、LLMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するために設計された包括的なフレームワークであるエージェントセキュリティベンチ(ASB)を紹介します。このフレームワークには、10のシナリオ(例えば、電子商取引、自律走行、金融)、シナリオをターゲットとする10のエージェント、400以上のツール、23の異なるタイプの攻撃/防御手法、8つの評価指標が含まれます。ASBに基づき、10種類のプロンプトインジェクション攻撃、メモリポイズニング攻撃、新奇なPlan-of-Thoughtバックドア攻撃、混合攻撃、および13のLLMバックボーンに対応する10種類の防御を、合計約90,000のテストケースでベンチマークしました。我々のベンチマークの結果は、システム・プロンプト、ユーザ・プロンプト処理、ツール使用、メモリ検索を含むエージェント操作の異なる段階における重大な脆弱性を明らかにし、84.30%の最高の平均攻撃成功率を示したが、現在の防御では限られた有効性しか示さず、コミュニティのためにエージェント・セキュリティの観点で行うべき重要な作業を明らかにした。我々のコードはhttps://github.com/agiresearch/ASB。

要約(オリジナル)

Although LLM-based agents, powered by Large Language Models (LLMs), can use external tools and memory mechanisms to solve complex real-world tasks, they may also introduce critical security vulnerabilities. However, the existing literature does not comprehensively evaluate attacks and defenses against LLM-based agents. To address this, we introduce Agent Security Bench (ASB), a comprehensive framework designed to formalize, benchmark, and evaluate the attacks and defenses of LLM-based agents, including 10 scenarios (e.g., e-commerce, autonomous driving, finance), 10 agents targeting the scenarios, over 400 tools, 23 different types of attack/defense methods, and 8 evaluation metrics. Based on ASB, we benchmark 10 prompt injection attacks, a memory poisoning attack, a novel Plan-of-Thought backdoor attack, a mixed attack, and 10 corresponding defenses across 13 LLM backbones with nearly 90,000 testing cases in total. Our benchmark results reveal critical vulnerabilities in different stages of agent operation, including system prompt, user prompt handling, tool usage, and memory retrieval, with the highest average attack success rate of 84.30\%, but limited effectiveness shown in current defenses, unveiling important works to be done in terms of agent security for the community. Our code can be found at https://github.com/agiresearch/ASB.

arxiv情報

著者 Hanrong Zhang,Jingyuan Huang,Kai Mei,Yifei Yao,Zhenting Wang,Chenlu Zhan,Hongwei Wang,Yongfeng Zhang
発行日 2024-10-03 16:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR | コメントする

Undesirable Memorization in Large Language Models: A Survey

要約

最近の研究では、大規模言語モデル(LLM)の優れた能力がますます注目されるようになっているが、その一方で、LLMに隠された落とし穴と向き合うことが不可欠である。これらの課題の中でも、暗記の問題は際立っており、重大な倫理的・法的リスクをもたらしている。本稿では、LLMの暗記に関する知識の体系化(SoK)を紹介する。暗記とは、モデルが学習データからフレーズや文章を記憶し、再現する傾向のことであり、LLMに対する様々なプライバシー攻撃やセキュリティ攻撃の根本的な問題であることが示されている。 本論文では、まず記憶に関する文献を概観し、意図性、程度、検索可能性、抽象性、透明性という5つの主要な次元にわたって、記憶について検討する。次に、暗記を測定するために使用されるメトリクスと方法について説明し、暗記現象の要因について分析する。次に、暗記が特定のモデルアーキテクチャにおいてどのように現れるかを検証し、これらの影響を軽減するための戦略を探る。最後に、LLMの性能とプライバシーのバランスをとるための手法の開発、会話エージェント、検索支援型生成、多言語言語モデル、拡散言語モデルなど、特定のコンテキストにおける記憶化の分析など、近い将来の潜在的な研究テーマを特定することで、本概説を締めくくる。

要約(オリジナル)

While recent research increasingly showcases the remarkable capabilities of Large Language Models (LLMs), it’s vital to confront their hidden pitfalls. Among these challenges, the issue of memorization stands out, posing significant ethical and legal risks. In this paper, we presents a Systematization of Knowledge (SoK) on the topic of memorization in LLMs. Memorization is the effect that a model tends to store and reproduce phrases or passages from the training data and has been shown to be the fundamental issue to various privacy and security attacks against LLMs. We begin by providing an overview of the literature on the memorization, exploring it across five key dimensions: intentionality, degree, retrievability, abstraction, and transparency. Next, we discuss the metrics and methods used to measure memorization, followed by an analysis of the factors that contribute to memorization phenomenon. We then examine how memorization manifests itself in specific model architectures and explore strategies for mitigating these effects. We conclude our overview by identifying potential research topics for the near future: to develop methods for balancing performance and privacy in LLMs, and the analysis of memorization in specific contexts, including conversational agents, retrieval-augmented generation, multilingual language models, and diffusion language models.

arxiv情報

著者 Ali Satvaty,Suzan Verberne,Fatih Turkmen
発行日 2024-10-03 16:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | コメントする

CAX: Cellular Automata Accelerated in JAX

要約

セルオートマトンは、神経科学、人工生命、理論物理学など、様々な科学分野にまたがる創発と自己組織化を研究するための基礎となっている。しかし、ハードウェアで高速化されたセルオートマトン・ライブラリーが存在しないため、新しい研究の方向性の探求が制限され、共同研究が妨げられ、再現性が妨げられている。本研究では、セルオートマトン研究を加速するために設計された、高性能で柔軟なオープンソースライブラリであるCAX(Cellular Automata Accelerated in JAX)を紹介する。CAXは、ユーザーフレンドリーなインターフェースを通じて、最先端の性能とモジュール設計を提供し、任意の次元数を持つ離散および連続セルオートマトンの両方をサポートすることができる。CAXの性能と柔軟性は、さまざまなベンチマークとアプリケーションによって実証されている。初等セルオートマトンやConway’s Game of Lifeのような古典的なモデルから、ニューラルセルオートマトンの成長やMNISTの数字を自己分類するような高度なアプリケーションまで、CAXはシミュレーションを最大2,000倍高速化する。さらに、CAXが研究を加速する可能性を、3つの新しいセルオートマトン実験のコレクションを紹介することによって示す。特に、単純な1次元セルオートマトンが、1D-ARC課題においてGPT-4を上回る性能を持つことを示す。

要約(オリジナル)

Cellular automata have become a cornerstone for investigating emergence and self-organization across diverse scientific disciplines, spanning neuroscience, artificial life, and theoretical physics. However, the absence of a hardware-accelerated cellular automata library limits the exploration of new research directions, hinders collaboration, and impedes reproducibility. In this work, we introduce CAX (Cellular Automata Accelerated in JAX), a high-performance and flexible open-source library designed to accelerate cellular automata research. CAX offers cutting-edge performance and a modular design through a user-friendly interface, and can support both discrete and continuous cellular automata with any number of dimensions. We demonstrate CAX’s performance and flexibility through a wide range of benchmarks and applications. From classic models like elementary cellular automata and Conway’s Game of Life to advanced applications such as growing neural cellular automata and self-classifying MNIST digits, CAX speeds up simulations up to 2,000 times faster. Furthermore, we demonstrate CAX’s potential to accelerate research by presenting a collection of three novel cellular automata experiments, each implemented in just a few lines of code thanks to the library’s modular architecture. Notably, we show that a simple one-dimensional cellular automaton can outperform GPT-4 on the 1D-ARC challenge.

arxiv情報

著者 Maxence Faldor,Antoine Cully
発行日 2024-10-03 16:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

Scalable Simulation-free Entropic Unbalanced Optimal Transport

要約

最適輸送(Optimal Transport, OT)問題は、与えられたコスト関数を最小化しながら2つの分布を結ぶ輸送写像を求める問題である。このような輸送写像を求めることは、生成モデリングや画像間の変換など、機械学習における様々な応用がある。本論文では、エントロピー的不均衡最適輸送(EUOT)問題を解くための、スケーラブルでシミュレーション不要なアプローチを紹介する。このEUOT問題の動的形式を導出し、これはSB問題の一般化である。これに基づき、確率的最適制御の解釈からEUOT問題の双対定式化と最適化条件を導出する。これらの性質を利用して、シミュレーションフリーのEUOT(SF-EUOT)と呼ばれるEUOTを解くアルゴリズムを提案する。既存のSBモデルでは、学習と評価の際に高価なシミュレーションコストが必要であるが、本モデルでは、逆数特性を利用することで、シミュレーションフリーの学習とワンステップ生成を実現する。我々のモデルは、従来のSB手法と比較して、生成モデリングや画像間の変換タスクにおいて著しく改善されたスケーラビリティを示す。

要約(オリジナル)

The Optimal Transport (OT) problem investigates a transport map that connects two distributions while minimizing a given cost function. Finding such a transport map has diverse applications in machine learning, such as generative modeling and image-to-image translation. In this paper, we introduce a scalable and simulation-free approach for solving the Entropic Unbalanced Optimal Transport (EUOT) problem. We derive the dynamical form of this EUOT problem, which is a generalization of the Schr\’odinger bridges (SB) problem. Based on this, we derive dual formulation and optimality conditions of the EUOT problem from the stochastic optimal control interpretation. By leveraging these properties, we propose a simulation-free algorithm to solve EUOT, called Simulation-free EUOT (SF-EUOT). While existing SB models require expensive simulation costs during training and evaluation, our model achieves simulation-free training and one-step generation by utilizing the reciprocal property. Our model demonstrates significantly improved scalability in generative modeling and image-to-image translation tasks compared to previous SB methods.

arxiv情報

著者 Jaemoo Choi,Jaewoong Choi
発行日 2024-10-03 16:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | コメントする

Does Refusal Training in LLMs Generalize to the Past Tense?

要約

拒否訓練は、LLMが有害、望ましくない、あるいは違法な出力を生成するのを防ぐために広く使われている。我々は、現在の拒否訓練アプローチにおける不思議な汎化のギャップを明らかにする。有害な要求を過去形に言い換えるだけ(例えば、「火炎瓶の作り方」を「火炎瓶をどうやって作ったか」に言い換える)で、多くの最先端のLLMを脱獄させるのに十分な場合が多い。我々は、GPT-3.5 Turboを再定式化モデルとして、Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o mini、GPT-4o、o1-mini、o1-preview、R2D2モデルでこの方法を系統的に評価した。例えば、GPT-4oに対するこの単純な攻撃の成功率は、直接要求を使用した場合の1%から、脱獄判定としてGPT-4を使用したJailbreakBenchからの有害な要求に対する20回の過去時制の再定式化の試行を使用した場合の88%まで増加します。興味深いことに、我々はまた、未来時制での再定式化がより効果的でないことを発見し、拒否ガードレールは、仮想的な未来の質問よりも過去の歴史的な質問をより良性であるとみなす傾向があることを示唆している。さらに、GPT-3.5ターボのファインチューニング実験から、ファインチューニングデータに過去の時制の例が明示的に含まれている場合、過去の改竄に対する防御が可能であることが示された。全体として、我々の発見は、SFT、RLHF、敵対的訓練など、研究されたモデルを整列させるために広く使用されている整列技術は脆く、必ずしも意図したとおりに一般化されない可能性があることを強調している。コードと脱獄の成果物はhttps://github.com/tml-epfl/llm-past-tense。

要約(オリジナル)

Refusal training is widely used to prevent LLMs from generating harmful, undesirable, or illegal outputs. We reveal a curious generalization gap in the current refusal training approaches: simply reformulating a harmful request in the past tense (e.g., ‘How to make a Molotov cocktail?’ to ‘How did people make a Molotov cocktail?’) is often sufficient to jailbreak many state-of-the-art LLMs. We systematically evaluate this method on Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o mini, GPT-4o, o1-mini, o1-preview, and R2D2 models using GPT-3.5 Turbo as a reformulation model. For example, the success rate of this simple attack on GPT-4o increases from 1% using direct requests to 88% using 20 past tense reformulation attempts on harmful requests from JailbreakBench with GPT-4 as a jailbreak judge. Interestingly, we also find that reformulations in the future tense are less effective, suggesting that refusal guardrails tend to consider past historical questions more benign than hypothetical future questions. Moreover, our experiments on fine-tuning GPT-3.5 Turbo show that defending against past reformulations is feasible when past tense examples are explicitly included in the fine-tuning data. Overall, our findings highlight that the widely used alignment techniques — such as SFT, RLHF, and adversarial training — employed to align the studied models can be brittle and do not always generalize as intended. We provide code and jailbreak artifacts at https://github.com/tml-epfl/llm-past-tense.

arxiv情報

著者 Maksym Andriushchenko,Nicolas Flammarion
発行日 2024-10-03 16:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Grounded Answers for Multi-agent Decision-making Problem through Generative World Model

要約

近年の生成モデルの進歩は、画像生成やチャットボットなど、多くの分野で大きなイノベーションを促している。その成功にもかかわらず、これらのモデルは、人間のような試行錯誤の経験や推論を欠くため、複雑なマルチエージェントの意思決定問題に対して、大雑把で誤解を招くような解を生成することが多い。この限界に対処するために、我々は、生成された答えを強化するために、言語ガイド付きシミュレータをマルチエージェント強化学習パイプラインに統合するパラダイムを探求する。このシミュレータは、ダイナミクスと報酬を別々に学習するワールドモデルであり、ダイナミクスモデルは、画像トークン化器と、相互作用遷移を自己回帰的に生成する因果変換器から構成され、報酬モデルは、言語ガイドの下で、専門家のデモンストレーションにおける軌道の尤度を最大化することによって学習される双方向変換器である。現在の状態の画像とタスク記述が与えられたとき、ワールドモデルを用いて共同ポリシーを学習し、収束したポリシーをダイナミクスモデル上で実行することにより、画像シーケンスを答えとして生成する。実証結果は、StarCraft Multi-Agent Challengeベンチマークの訓練タスクと未見タスクで優れた性能を示すことにより、このフレームワークがマルチエージェント意思決定問題の解答を改善できることを示す。特に、一貫性のある相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成することができ、将来の生成モデルの訓練への道を開く。

要約(オリジナル)

Recent progress in generative models has stimulated significant innovations in many fields, such as image generation and chatbots. Despite their success, these models often produce sketchy and misleading solutions for complex multi-agent decision-making problems because they miss the trial-and-error experience and reasoning as humans. To address this limitation, we explore a paradigm that integrates a language-guided simulator into the multi-agent reinforcement learning pipeline to enhance the generated answer. The simulator is a world model that separately learns dynamics and reward, where the dynamics model comprises an image tokenizer as well as a causal transformer to generate interaction transitions autoregressively, and the reward model is a bidirectional transformer learned by maximizing the likelihood of trajectories in the expert demonstrations under language guidance. Given an image of the current state and the task description, we use the world model to train the joint policy and produce the image sequence as the answer by running the converged policy on the dynamics model. The empirical results demonstrate that this framework can improve the answers for multi-agent decision-making problems by showing superior performance on the training and unseen tasks of the StarCraft Multi-Agent Challenge benchmark. In particular, it can generate consistent interaction sequences and explainable reward functions at interaction states, opening the path for training generative models of the future.

arxiv情報

著者 Zeyang Liu,Xinrui Yang,Shiguang Sun,Long Qian,Lipeng Wan,Xingyu Chen,Xuguang Lan
発行日 2024-10-03 16:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.MA | コメントする

AlphaIntegrator: Transformer Action Search for Symbolic Integration Proofs

要約

我々は、ステップバイステップの数学的統合のための、最初の正解学習ベースのシステムを発表する。重要なアイデアは、GPT変換モデルによって表されるポリシーを学習することであり、このポリシーは、記号ソルバーによって実行される正しい数学的統合ルールの探索をガイドする。具体的には、数式に対する公理的に正しいアクションを持つ記号エンジンと、段階的統合のための最初のデータセットを紹介する。この合成データで訓練されたGPTスタイルの変換モデルは、50%少ない探索ステップで、精度と効率において自身のデータジェネレータを凌駕し、強力な汎化を示す。また、SoTA LLMを用いた我々の実験結果は、質問と答えのペアのセットでLLMを微調整するという標準的なアプローチが、この数学的課題を解決するには不十分であることを示している。このことは、LLMを記号的推論エンジンと組み合わせる独創的な方法を発見することの重要性を動機づけるものであり、我々の研究はその一例である。

要約(オリジナル)

We present the first correct-by-construction learning-based system for step-by-step mathematical integration. The key idea is to learn a policy, represented by a GPT transformer model, which guides the search for the right mathematical integration rule, to be carried out by a symbolic solver. Concretely, we introduce a symbolic engine with axiomatically correct actions on mathematical expressions, as well as the first dataset for step-by-step integration. Our GPT-style transformer model, trained on this synthetic data, demonstrates strong generalization by surpassing its own data generator in accuracy and efficiency, using 50% fewer search steps. Our experimental results with SoTA LLMs also demonstrate that the standard approach of fine-tuning LLMs on a set of question-answer pairs is insufficient for solving this mathematical task. This motivates the importance of discovering creative methods for combining LLMs with symbolic reasoning engines, of which our work is an instance.

arxiv情報

著者 Mert Ünsal,Timon Gehr,Martin Vechev
発行日 2024-10-03 16:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.MS, cs.SC | コメントする

Unsupervised Point Cloud Completion through Unbalanced Optimal Transport

要約

ペアリングされていない点群補完では、ペアリングされていない不完全な点群データと完全な点群データから補完マップを学習する手法が研究されている。本論文では、アンバランスな最適輸送マップを用いた、アンペア点群補完のための新しいアプローチを提案し、アンペア点群補完のためのアンバランス最適輸送マップ(UOT-UPC)と呼ぶ。我々は、非対点群補完が最適輸送(OT)問題として自然に解釈できることを実証し、非対点群補完データセットに蔓延するクラス不均衡問題に対処するために、不均衡最適輸送(UOT)アプローチを導入する。さらに、ペアリングされていない補完タスクに適したコスト関数を分析する。この分析により、InfoCDコスト関数がこのタスクに特に適していることが示された。我々のモデルは、ペアリングされていない点群補完のためにUOTを活用する最初の試みであり、単一カテゴリと複数カテゴリの両方のデータセットにおいて、競争力のある、あるいは優れた結果を達成している。特に、我々のモデルは、不完全な点群データセットと完全な点群データセットの間でカテゴリの割合が異なる、クラス不均衡のシナリオにおいて特に有効である。

要約(オリジナル)

Unpaired point cloud completion explores methods for learning a completion map from unpaired incomplete and complete point cloud data. In this paper, we propose a novel approach for unpaired point cloud completion using the unbalanced optimal transport map, called Unbalanced Optimal Transport Map for Unpaired Point Cloud Completion (UOT-UPC). We demonstrate that the unpaired point cloud completion can be naturally interpreted as the Optimal Transport (OT) problem and introduce the Unbalanced Optimal Transport (UOT) approach to address the class imbalance problem, which is prevalent in unpaired point cloud completion datasets. Moreover, we analyze the appropriate cost function for unpaired completion tasks. This analysis shows that the InfoCD cost function is particularly well-suited for this task. Our model is the first attempt to leverage UOT for unpaired point cloud completion, achieving competitive or superior results on both single-category and multi-category datasets. In particular, our model is especially effective in scenarios with class imbalance, where the proportions of categories are different between the incomplete and complete point cloud datasets.

arxiv情報

著者 Taekyung Lee,Jaemoo Choi,Jaewoong Choi
発行日 2024-10-03 16:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | コメントする