A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound

要約

マルチソース転送学習は、複数のソースタスクを活用することにより、実際の監視された学習シナリオにおけるデータ不足に対する効果的なソリューションを提供します。
この分野では、既存の作業は通常、トレーニング中のソースから利用可能なすべてのサンプルを使用します。これにより、トレーニング効率が制約され、最適ではない結果が生じる可能性があります。
これに対処するために、ターゲットモデルを共同でトレーニングするために各ソースタスクから必要なソースサンプルの最適な量は何ですか?
具体的には、クロスエントロピー損失と整列する一般化エラー測定を導入し、各ソースタスクの最適な転送量を決定するためにcram \ ‘er-raoに基づいて最小化します。
さらに、深いマルチソース転送学習モデルをトレーニングするための理論的結果を実装するために、アーキテクチャに依存しないおよびデータ効率の高いアルゴリズムOTQMを開発します。
多様なアーキテクチャと2つの実際のベンチマークデータセットに関する実験的研究は、提案されたアルゴリズムが精度とデータ効率の両方で最先端のアプローチを大幅に上回ることを示しています。
コードと補足資料は、https://anonymous.4open.science/r/materialsで入手できます。

要約(オリジナル)

Multi-source transfer learning provides an effective solution to data scarcity in real-world supervised learning scenarios by leveraging multiple source tasks. In this field, existing works typically use all available samples from sources in training, which constrains their training efficiency and may lead to suboptimal results. To address this, we propose a theoretical framework that answers the question: what is the optimal quantity of source samples needed from each source task to jointly train the target model? Specifically, we introduce a generalization error measure that aligns with cross-entropy loss, and minimize it based on the Cram\’er-Rao Bound to determine the optimal transfer quantity for each source task. Additionally, we develop an architecture-agnostic and data-efficient algorithm OTQMS to implement our theoretical results for training deep multi-source transfer learning models. Experimental studies on diverse architectures and two real-world benchmark datasets show that our proposed algorithm significantly outperforms state-of-the-art approaches in both accuracy and data efficiency. The code and supplementary materials are available in https://anonymous.4open.science/r/Materials.

arxiv情報

著者 Qingyue Zhang,Haohao Fu,Guanbo Huang,Yaoyuan Liang,Chang Chu,Tianren Peng,Yanru Wu,Qi Li,Yang Li,Shao-Lun Huang
発行日 2025-02-25 14:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound はコメントを受け付けていません

Implicit In-context Learning

要約

コンテキスト学習(ICL)は、クエリの前にいくつかのデモンストレーションの例をプレフィックスすることにより、推論時に目に見えないタスクに迅速に適応することができます。
その汎用性にもかかわらず、ICLはゼロショット学習と比較してかなりの計算およびメモリのオーバーヘッドを発生し、デモンストレーションの例の選択と順序に敏感です。
この作業では、ICLの推論コストを最小限の情報損失でゼロショット学習の推論コストに削減する革新的なパラダイムである暗黙のコンテキスト学習(I2CL)を紹介します。
I2CLは、最初に凝縮されたベクトル表現、つまりデモンストレーションの例から抽出されたコンテキストベクトルを生成することにより動作します。
次に、コンテキストベクトルとクエリのアクティベーションの線形組み合わせをモデルの残留ストリームに戻すことにより、推論時間介入を実施します。
3つのモデルアーキテクチャにわたる9つの現実世界のタスクに関する経験的評価は、I2CLがゼロショット推論コストで少ないショットレベルのパフォーマンスを達成し、デモンストレーションの例の変動に対して堅牢性を示すことを示しています。
さらに、I2CLは、タスクIDの新しい表現を促進し、タスクの類似性の検出を強化し、効果的な転送学習を促進します。
また、I2CLに関する包括的な分析とアブレーション研究を実行し、その内部メカニズムについてより深い洞察を提供します。
コードはhttps://github.com/lzvv123456/i2clで入手できます。

要約(オリジナル)

In-context Learning (ICL) empowers large language models (LLMs) to swiftly adapt to unseen tasks at inference-time by prefixing a few demonstration examples before queries. Despite its versatility, ICL incurs substantial computational and memory overheads compared to zero-shot learning and is sensitive to the selection and order of demonstration examples. In this work, we introduce Implicit In-context Learning (I2CL), an innovative paradigm that reduces the inference cost of ICL to that of zero-shot learning with minimal information loss. I2CL operates by first generating a condensed vector representation, namely a context vector, extracted from the demonstration examples. It then conducts an inference-time intervention through injecting a linear combination of the context vector and query activations back into the model’s residual streams. Empirical evaluation on nine real-world tasks across three model architectures demonstrates that I2CL achieves few-shot level performance at zero-shot inference cost, and it exhibits robustness against variations in demonstration examples. Furthermore, I2CL facilitates a novel representation of task-ids, enhancing task similarity detection and fostering effective transfer learning. We also perform a comprehensive analysis and ablation study on I2CL, offering deeper insights into its internal mechanisms. Code is available at https://github.com/LzVv123456/I2CL.

arxiv情報

著者 Zhuowei Li,Zihao Xu,Ligong Han,Yunhe Gao,Song Wen,Di Liu,Hao Wang,Dimitris N. Metaxas
発行日 2025-02-25 14:49:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Implicit In-context Learning はコメントを受け付けていません

Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support

要約

大規模な言語モデル(LLM)、特に推論能力を持つものは、近年急速に進歩しており、幅広いアプリケーションにわたって重大な可能性を示しています。
しかし、特に病気の推論タスクにおけるヘルスケアでの彼らの展開は、専門家レベルの認知データを取得するという課題によって妨げられています。
この論文では、医療専門家の認知プロセスをエミュレートすることにより、臨床の専門知識とAI推論のギャップを埋める医療言語モデルであるCitrusを紹介します。
このモデルは、臨床医の意思決定経路を正確にキャプチャする新しいアプローチを使用して合成された、シミュレートされた専門家疾患推論データの大規模なコーパスで訓練されています。
このアプローチにより、柑橘類は病状の診断と治療に関与する複雑な推論プロセスをよりよくシミュレートすることができます。医療推論のタスクのために公開されているデータセットの欠如にさらに対処するために、カスタム構築された医療診断対話を含む最終段階のトレーニングデータをリリースします
データセット。
このオープンソースの貢献は、この分野でのさらなる研究開発をサポートすることを目的としています。
MEDQAなどの権威あるベンチマークを使用した評価は、医療推論と言語理解のタスクをカバーすることで、柑橘類が同様のサイズの他のモデルと比較して優れたパフォーマンスを達成することを示しています。
これらの結果は、医療意思決定支援システムを大幅に強化する柑橘類の可能性を強調し、臨床的意思決定のためのより正確で効率的なツールを提供します。

要約(オリジナル)

Large language models (LLMs), particularly those with reasoning capabilities, have rapidly advanced in recent years, demonstrating significant potential across a wide range of applications. However, their deployment in healthcare, especially in disease reasoning tasks, is hindered by the challenge of acquiring expert-level cognitive data. In this paper, we introduce Citrus, a medical language model that bridges the gap between clinical expertise and AI reasoning by emulating the cognitive processes of medical experts. The model is trained on a large corpus of simulated expert disease reasoning data, synthesized using a novel approach that accurately captures the decision-making pathways of clinicians. This approach enables Citrus to better simulate the complex reasoning processes involved in diagnosing and treating medical conditions.To further address the lack of publicly available datasets for medical reasoning tasks, we release the last-stage training data, including a custom-built medical diagnostic dialogue dataset. This open-source contribution aims to support further research and development in the field. Evaluations using authoritative benchmarks such as MedQA, covering tasks in medical reasoning and language understanding, show that Citrus achieves superior performance compared to other models of similar size. These results highlight Citrus potential to significantly enhance medical decision support systems, providing a more accurate and efficient tool for clinical decision-making.

arxiv情報

著者 Guoxin Wang,Minyu Gao,Shuai Yang,Ya Zhang,Lizhi He,Liang Huang,Hanlin Xiao,Yexuan Zhang,Wanyue Li,Lu Chen,Jintao Fei,Xin Li
発行日 2025-02-25 15:05:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Citrus: Leveraging Expert Cognitive Pathways in a Medical Language Model for Advanced Medical Decision Support はコメントを受け付けていません

Chat Bankman-Fried: an Exploration of LLM Alignment in Finance

要約

大規模な言語モデル(LLMS)の進歩は、AIの整合性に関する懸念を更新しました – 人間とAIの目標と価値の一貫性。
さまざまな管轄区域がAIの安全性に関する法律を制定するため、アラインメントの概念を定義および測定する必要があります。
このペーパーでは、LLMが比較的未開拓の資金調達の文脈で倫理的および法的基準に準拠しているかどうかを評価するための実験的枠組みを提案します。
12人のLLMが金融機関のCEOになりすまし、顧客資産を誤用して未払いの企業債務を返済する意欲をテストするよう促します。
ベースライン構成から始めて、設定、インセンティブ、制約を調整し、各調整の影響をロジスティック回帰を分析します。
私たちの発見は、LLMSの非倫理的行動に対するベースライン傾向における重要な不均一性を明らかにしています。
リスク回避、利益の期待、規制環境などの要因は、これらの効果の大きさはLLMによって異なりますが、経済理論によって予測される方法で一貫して不整合に影響します。
このペーパーでは、シミュレーションベースのEx安全性テストの利点と制限の両方を強調しています。
LLMの安全性を確保することを目的とした金融当局や機関に通知することができますが、一般性とコストの間には明確なトレードオフがあります。

要約(オリジナル)

Advancements in large language models (LLMs) have renewed concerns about AI alignment – the consistency between human and AI goals and values. As various jurisdictions enact legislation on AI safety, the concept of alignment must be defined and measured across different domains. This paper proposes an experimental framework to assess whether LLMs adhere to ethical and legal standards in the relatively unexplored context of finance. We prompt twelve LLMs to impersonate the CEO of a financial institution and test their willingness to misuse customer assets to repay outstanding corporate debt. Beginning with a baseline configuration, we adjust preferences, incentives and constraints, analyzing the impact of each adjustment with logistic regression. Our findings reveal significant heterogeneity in the baseline propensity for unethical behavior of LLMs. Factors such as risk aversion, profit expectations, and regulatory environment consistently influence misalignment in ways predicted by economic theory, although the magnitude of these effects varies across LLMs. This paper highlights both the benefits and limitations of simulation-based, ex post safety testing. While it can inform financial authorities and institutions aiming to ensure LLM safety, there is a clear trade-off between generality and cost.

arxiv情報

著者 Claudia Biancotti,Carolina Camassa,Andrea Coletta,Oliver Giudice,Aldo Glielmo
発行日 2025-02-25 15:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, q-fin.GN | Chat Bankman-Fried: an Exploration of LLM Alignment in Finance はコメントを受け付けていません

LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations

要約

文献からの金属有機フレームワーク(MOFS)合成ルートの抽出は、望ましい機能を備えた論理MOFS設計にとって非常に重要です。
最近の大規模な言語モデル(LLMS)の出現は、この長年の問題に対する破壊的に新しい解決策を提供します。
最新の研究は主に専門的な物質的知識を欠いている原始的なゼロショットLLMに固執していますが、この作業では、少数のLLMコンテキスト学習パラダイムを紹介します。
まず、高品質のデモンストレーションを確保するために、人間のInteractive Data Curationアプローチが提案されています。
第二に、情報検索アルゴリズムが適用され、各抽出の少数のショットデモンストレーションを選択および定量化します。
ほぼ90,000の明確に定義されたMOFからランダムにサンプリングされた3つのデータセットを超えると、トリプル評価を実施して、メソッドを検証します。
提案されている少数のLLMの合成抽出、構造推論、および材料設計パフォーマンスはすべて、ゼロショットLLMおよびベースラインメソッドを大幅に上回っています。
LLMに導かれたラボ合成材料は、特定の表面積の主要な物理的特性について、文献で報告されている同じクラスの高品質のMOF 91.1%を超えています。

要約(オリジナル)

The extraction of Metal-Organic Frameworks (MOFs) synthesis route from literature has been crucial for the logical MOFs design with desirable functionality. The recent advent of large language models (LLMs) provides disruptively new solution to this long-standing problem. While the latest researches mostly stick to primitive zero-shot LLMs lacking specialized material knowledge, we introduce in this work the few-shot LLM in-context learning paradigm. First, a human-AI interactive data curation approach is proposed to secure high-quality demonstrations. Second, an information retrieval algorithm is applied to pick and quantify few-shot demonstrations for each extraction. Over three datasets randomly sampled from nearly 90,000 well-defined MOFs, we conduct triple evaluations to validate our method. The synthesis extraction, structure inference, and material design performance of the proposed few-shot LLMs all significantly outplay zero-shot LLM and baseline methods. The lab-synthesized material guided by LLM surpasses 91.1% high-quality MOFs of the same class reported in the literature, on the key physical property of specific surface area.

arxiv情報

著者 Lei Shi,Zhimeng Liu,Yi Yang,Weize Wu,Yuyang Zhang,Hongbo Zhang,Jing Lin,Siyu Wu,Zihan Chen,Ruiming Li,Nan Wang,Zipeng Liu,Huobin Tan,Hongyi Gao,Yue Zhang,Ge Wang
発行日 2025-02-25 15:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations はコメントを受け付けていません

AMPO: Active Multi-Preference Optimization

要約

マルチプレーファレンス最適化は、役立つものや望ましくない応答のセット全体を対比することにより、ペアワイズの好みを超えて言語モデルのアラインメントを充実させ、それにより、大規模な言語モデルのより豊富なトレーニング信号を可能にします。
自己プレイの調整中、これらのモデルは多くの場合、クエリごとに多数の候補者の回答を生成し、トレーニング目標にすべての応答を含めるために計算上無効になります。
この作業では、$ \ textIT {Active Multi-Preference Optimization} $(AMPO)を提案します。これは、ポリシー上の生成、マルチプレーショングループ制御の損失、およびアクティブなサブセット選択を組み合わせた新しいアプローチです。
具体的には、応答の大規模な候補プールをスコアリングして埋め込み、その後、極端な報酬と異なるセマンティッククラスターをカバーする小さくても有益なサブセットを選択して、優先最適化を選択します。
私たちの対照的なトレーニングスキームは、最高の答えと最悪の答えだけでなく、堅牢なアライメントに不可欠な微妙で露出していないモードを特定することができます。
理論的には、アクティブ選択方法を使用した予想される報酬の最大化の保証を提供し、経験的には、AMPOはLlama 8bを使用して$ \ textit {alpacaeval} $で最新の結果を達成します。

要約(オリジナル)

Multi-preference optimization enriches language-model alignment beyond pairwise preferences by contrasting entire sets of helpful and undesired responses, thereby enabling richer training signals for large language models. During self-play alignment, these models often produce numerous candidate answers per query, rendering it computationally infeasible to include all responses in the training objective. In this work, we propose $\textit{Active Multi-Preference Optimization}$ (AMPO), a novel approach that combines on-policy generation, a multi-preference group-contrastive loss, and active subset selection. Specifically, we score and embed large candidate pools of responses and then select a small, yet informative, subset that covers reward extremes and distinct semantic clusters for preference optimization. Our contrastive training scheme is capable of identifying not only the best and worst answers but also subtle, underexplored modes that are crucial for robust alignment. Theoretically, we provide guarantees for expected reward maximization using our active selection method, and empirically, AMPO achieves state-of-the-art results on $\textit{AlpacaEval}$ using Llama 8B.

arxiv情報

著者 Taneesh Gupta,Rahul Madhavan,Xuchao Zhang,Chetan Bansal,Saravan Rajmohan
発行日 2025-02-25 15:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AMPO: Active Multi-Preference Optimization はコメントを受け付けていません

Mixing Any Cocktail with Limited Ingredients: On the Structure of Payoff Sets in Multi-Objective MDPs and its Impact on Randomised Strategies

要約

マルコフの決定プロセスにおける多次元ペイオフ関数を検討し、特定の予想ペイオフベクトルを達成できるかどうかを尋ねます。
一般に、この問題については、純粋な戦略(つまり、ランダム化に頼らない)で十分ではありません。
多次元のペイオフ関数と戦略のランダム化要件に関するその結果を考慮して、すべての戦略の予想されるペイオフベクトルのセットの構造を研究します。
特に、すべての戦略の下で期待が明確に定義されているペイオフについては、混合するだけで十分であることを証明します(つまり、劇の開始時に純粋な戦略をランダムに選択し、プレイの残りの部分でそれにコミットすることを証明します。
)予想されるペイオフベクトルを精度まで近似するための多くの純粋な戦略。
さらに、予想されるペイオフがすべての戦略の下で有限である場合、予想されるペイオフは、有限の多くの戦略を混合することで正確に取得できます。

要約(オリジナル)

We consider multi-dimensional payoff functions in Markov decision processes, and ask whether a given expected payoff vector can be achieved or not. In general, pure strategies (i.e., not resorting to randomisation) do not suffice for this problem. We study the structure of the set of expected payoff vectors of all strategies given a multi-dimensional payoff function and its consequences regarding randomisation requirements for strategies. In particular, we prove that for any payoff for which the expectation is well-defined under all strategies, it is sufficient to mix (i.e., randomly select a pure strategy at the start of a play and committing to it for the rest of the play) finitely many pure strategies to approximate any expected payoff vector up to any precision. Furthermore, for any payoff for which the expected payoff is finite under all strategies, any expected payoff can be obtained exactly by mixing finitely many strategies.

arxiv情報

著者 James C. A. Main,Mickael Randour
発行日 2025-02-25 15:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.GT, cs.LO, math.PR | Mixing Any Cocktail with Limited Ingredients: On the Structure of Payoff Sets in Multi-Objective MDPs and its Impact on Randomised Strategies はコメントを受け付けていません

Smart and Efficient IoT-Based Irrigation System Design: Utilizing a Hybrid Agent-Based and System Dynamics Approach

要約

降水量の減少や人口の増加などの問題に関して、水資源不足は現代社会で最も重要な問題の1つになりました。その結果、乾燥国や半乾燥国での灌漑のために利用可能な水資源が不足しています。
一方、最新の技術を利用して灌漑を制御し、水分損失を減らすことができます。
これらのテクノロジーの1つは、モノのインターネット(IoT)です。
灌漑制御システムでIoTを使用する可能性にもかかわらず、そのようなシステムの設計には複雑さがあります。
この問題を考慮して、IoTベースのシステムなどの複雑なサイバー物理システムを設計するために、エージェント指向ソフトウェアエンジニアリング(AOSE)方法論を使用することができます。
この研究では、適切な間隔で土壌水分を維持することにより水分損失を減らすために、プロメテウスの告発方法論に基づいてスマート灌漑システムが設計されています。
設計されたシステムは、センサー、中央エージェント、および灌漑ノードで構成されています。
これらのエージェントは、定義済みのルールに従って、土壌水分を協力的に希望するレベルで維持します。
システムシミュレーションのために、ハイブリッドエージェントベースとシステムダイナミクスモデルが設計されました。
このハイブリッドモデルでは、System Dynamicsアプローチに基づいて土壌水分ダイナミクスがモデル化されました。
提案されたモデルは、Anylogic Computerシミュレーションソフトウェアに実装されました。
シミュレーションモデルを利用して、灌漑ルールを調べました。
自動灌漑モードでのシステムの機能は、256ランの分数要因設計に基づいてテストされ、総灌漑水と総操作時間に対する土壌特性などの重要な要因の影響を分析しました。
テストに基づいて、システムはすべてのテストでほぼ最適な水量を一貫して灌漑しました。
さらに、結果は、システムの運用時間を短縮することにより、システムのエネルギー消費を最小限に抑えるためにも使用されました。

要約(オリジナル)

Regarding problems like reduced precipitation and an increase in population, water resource scarcity has become one of the most critical problems in modern-day societies, as a consequence, there is a shortage of available water resources for irrigation in arid and semi-arid countries. On the other hand, it is possible to utilize modern technologies to control irrigation and reduce water loss. One of these technologies is the Internet of Things (IoT). Despite the possibility of using the IoT in irrigation control systems, there are complexities in designing such systems. Considering this issue, it is possible to use agent-oriented software engineering (AOSE) methodologies to design complex cyber-physical systems such as IoT-based systems. In this research, a smart irrigation system is designed based on Prometheus AOSE methodology, to reduce water loss by maintaining soil moisture in a suitable interval. The designed system comprises sensors, a central agent, and irrigation nodes. These agents follow defined rules to maintain soil moisture at a desired level cooperatively. For system simulation, a hybrid agent-based and system dynamics model was designed. In this hybrid model, soil moisture dynamics were modeled based on the system dynamics approach. The proposed model, was implemented in AnyLogic computer simulation software. Utilizing the simulation model, irrigation rules were examined. The system’s functionality in automatic irrigation mode was tested based on a 256-run, fractional factorial design, and the effects of important factors such as soil properties on total irrigated water and total operation time were analyzed. Based on the tests, the system consistently irrigated nearly optimal water amounts in all tests. Moreover, the results were also used to minimize the system’s energy consumption by reducing the system’s operational time.

arxiv情報

著者 Taha Ahmadi Pargo,Mohsen Akbarpour Shirazi,Dawud Fadai
発行日 2025-02-25 15:34:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.SY, eess.SY, I.2.1, I.6.6, J.2, stat.AP | Smart and Efficient IoT-Based Irrigation System Design: Utilizing a Hybrid Agent-Based and System Dynamics Approach はコメントを受け付けていません

Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning

要約

大規模な言語モデル(LLMS)は、証明システム内で証明ステップ(\ textit {a.k.a。}戦術)を生成することにより、数学的定理を正式に証明できます。
ただし、可能な戦術のスペースは広大で複雑ですが、正式な証明のための利用可能なトレーニングデータは限られており、LLMベースの戦術生成に大きな課題を抱えています。
これに対処するために、象徴的な方法によってエンコードされたドメイン固有の洞察を使用して、LLMSによって学習された数学的直観を相乗化するニューロシンボリック戦術ジェネレーターを紹介します。
この統合の重要な側面は、数学的推論のどの部分がLLMSに最適であり、どの部分に象徴的な方法に適しているかを特定することです。
この論文では、神経 – 神経系統合の高レベルのアイデアはさまざまな数学的問題に広く適用されますが、特にオリンピックの不平等に焦点を当てています(図〜1)。
人間がこれらの問題を解決する方法を分析し、技術を2種類の戦術に蒸留する方法を分析します。(1)象徴的な方法で処理されるスケーリング、(2)LLMSによって処理される書き換え。
さらに、シンボリックツールとLLMSを組み合わせて、効率的な証明検索の証明目標を剪定してランク付けします。
複数の数学競争からの161の挑戦的な不平等に関するフレームワークを評価し、最先端のパフォーマンスを達成し、追加のトレーニングデータを必要とせずに既存のLLMと象徴的なアプローチを大幅に上回ります。

要約(オリジナル)

Large language models (LLMs) can prove mathematical theorems formally by generating proof steps (\textit{a.k.a.} tactics) within a proof system. However, the space of possible tactics is vast and complex, while the available training data for formal proofs is limited, posing a significant challenge to LLM-based tactic generation. To address this, we introduce a neuro-symbolic tactic generator that synergizes the mathematical intuition learned by LLMs with domain-specific insights encoded by symbolic methods. The key aspect of this integration is identifying which parts of mathematical reasoning are best suited to LLMs and which to symbolic methods. While the high-level idea of neuro-symbolic integration is broadly applicable to various mathematical problems, in this paper, we focus specifically on Olympiad inequalities (Figure~1). We analyze how humans solve these problems and distill the techniques into two types of tactics: (1) scaling, handled by symbolic methods, and (2) rewriting, handled by LLMs. In addition, we combine symbolic tools with LLMs to prune and rank the proof goals for efficient proof search. We evaluate our framework on 161 challenging inequalities from multiple mathematics competitions, achieving state-of-the-art performance and significantly outperforming existing LLM and symbolic approaches without requiring additional training data.

arxiv情報

著者 Zenan Li,Zhaoyu Li,Wen Tang,Xian Zhang,Yuan Yao,Xujie Si,Fan Yang,Kaiyu Yang,Xiaoxing Ma
発行日 2025-02-25 15:38:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning はコメントを受け付けていません

CURE: Simulation-Augmented Auto-Tuning in Robotics

要約

ロボットシステムは、通常、ローカリゼーションやナビゲーションなどのさまざまなサブシステムで構成されており、それぞれが多数の構成可能なコンポーネントを網羅しています(例:異なる計画アルゴリズムの選択)。
コンポーネントに対してアルゴリズムが選択されたら、関連する構成オプションを適切な値に設定する必要があります。
システムスタック全体の構成オプションは、些細なことに相互作用します。
高度に構成可能なロボットの最適な構成を見つけるための最適なパフォーマンスは、ソフトウェアとハ​​ードウェア全体の構成オプションと、指数関数的に大きく複雑な構成スペースになるための相互作用のために、重要な課題をもたらします。
これらの課題は、異なる環境とロボットプラットフォーム間の移動性の必要性によってさらに悪化します。
データ効率の高い最適化アルゴリズム(ベイジアン最適化など)が、サイバー物理システムの構成可能なパラメーターのチューニングを自動化するためにますます採用されています。
ただし、このような最適化アルゴリズムは、多くの場合、割り当てられた予算(最適化ステップ、割り当てられた時間など)を使い果たした後、転送可能性を欠いている後に、後の段階で収束します。
このペーパーでは、Cureを提案します。これは、因果関係のある構成オプションを識別し、最適化プロセスが削減された検索スペースで動作できるようにするため、ロボットパフォーマンスをより速く最適化できるようにします。
Cureは、ソース(Gazebo Simulatorなどの低コスト環境)を学習し、ターゲットで最適化を実行するために学習した知識を適用することにより、さまざまな構成オプションとロボットのパフォーマンス目標との因果関係を抽象化します(例えば、Turtlebot 3 Physical
ロボット)。
物理的ロボットとシミュレーションの両方でさまざまな程度の展開の変化を伴う実験を実施することにより、治療の有効性と移転性を実証します。

要約(オリジナル)

Robotic systems are typically composed of various subsystems, such as localization and navigation, each encompassing numerous configurable components (e.g., selecting different planning algorithms). Once an algorithm has been selected for a component, its associated configuration options must be set to the appropriate values. Configuration options across the system stack interact non-trivially. Finding optimal configurations for highly configurable robots to achieve desired performance poses a significant challenge due to the interactions between configuration options across software and hardware that result in an exponentially large and complex configuration space. These challenges are further compounded by the need for transferability between different environments and robotic platforms. Data efficient optimization algorithms (e.g., Bayesian optimization) have been increasingly employed to automate the tuning of configurable parameters in cyber-physical systems. However, such optimization algorithms converge at later stages, often after exhausting the allocated budget (e.g., optimization steps, allotted time) and lacking transferability. This paper proposes CURE — a method that identifies causally relevant configuration options, enabling the optimization process to operate in a reduced search space, thereby enabling faster optimization of robot performance. CURE abstracts the causal relationships between various configuration options and robot performance objectives by learning a causal model in the source (a low-cost environment such as the Gazebo simulator) and applying the learned knowledge to perform optimization in the target (e.g., Turtlebot 3 physical robot). We demonstrate the effectiveness and transferability of CURE by conducting experiments that involve varying degrees of deployment changes in both physical robots and simulation.

arxiv情報

著者 Md Abir Hossen,Sonam Kharade,Jason M. O’Kane,Bradley Schmerl,David Garlan,Pooyan Jamshidi
発行日 2025-02-25 15:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CURE: Simulation-Augmented Auto-Tuning in Robotics はコメントを受け付けていません