Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression

要約

データからトレーニングされた人工知能モデルは、基礎となるデータと同じくらい良いものです。
機械学習モデルの出力まで伝播するデータのトレーニングにおけるバイアスは、十分に文書化され、よく理解されている現象ですが、これらの望ましくない効果を防ぐための機械はあまり発達していません。
バイアス認識サンプリングの使用など、収集中にデータがクリーンになるようにする努力は、データを制御するエンティティがAIを訓練する場合に最も効果的です。
データが既に利用可能な場合、データが既に操作されているかどうか、つまり「中毒」であるかどうかをどのように確認します。
これは、(ジャスト)近似精度または効率を改善することと根本的に異なる課題であり、欠陥のトレーニングデータをテストし、その後の機械学習モデルのトレーニング(あらゆる種類の)の信頼できる基礎を確立する方法を提供します。
データから生成されたファジールールを使用してデータを近似するという適切に研究された問題とは異なり、私たちの方法は、テストするデータを見る前に、ルールの以前の定義にかかっています。
したがって、提案された方法はまた、隠されたエラーパターンを発見する可能性があり、これも大きな影響を与える可能性があります。
私たちのアプローチは、「テスト条件」をあらゆるブール条件にして、データのパターンを説明することにより、従来の統計テストの能力を拡張します。
この方法は、ファジー推論を回帰モデルに入れ、2つの最大限を得るために、回帰からの統計的特性と診断を備えたファジーロジックからの説明可能性、そして最後に「小さなデータ」にも適用されるため、深い学習方法のように大きなデータセットを必要としません。
デモと実験のためのオープンソースの実装を提供します。

要約(オリジナル)

Artificial intelligence models trained from data can only be as good as the underlying data is. Biases in training data propagating through to the output of a machine learning model are a well-documented and well-understood phenomenon, but the machinery to prevent these undesired effects is much less developed. Efforts to ensure data is clean during collection, such as using bias-aware sampling, are most effective when the entity controlling data collection also trains the AI. In cases where the data is already available, how do we find out if the data was already manipulated, i.e., “poisoned”, so that an undesired behavior would be trained into a machine learning model? This is a challenge fundamentally different to (just) improving approximation accuracy or efficiency, and we provide a method to test training data for flaws, to establish a trustworthy ground-truth for a subsequent training of machine learning models (of any kind). Unlike the well-studied problem of approximating data using fuzzy rules that are generated from the data, our method hinges on a prior definition of rules to happen before seeing the data to be tested. Therefore, the proposed method can also discover hidden error patterns, which may also have substantial influence. Our approach extends the abilities of conventional statistical testing by letting the “test-condition” be any Boolean condition to describe a pattern in the data, whose presence we wish to determine. The method puts fuzzy inference into a regression model, to get the best of the two: explainability from fuzzy logic with statistical properties and diagnostics from the regression, and finally also being applicable to “small data”, hence not requiring large datasets as deep learning methods do. We provide an open source implementation for demonstration and experiments.

arxiv情報

著者 Stefan Rass,Martin Dallinger
発行日 2025-04-01 13:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68M25, cs.AI, cs.LG, secondary | Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression はコメントを受け付けていません

TOBUGraph: Knowledge Graph-Based Retrieval for Enhanced LLM Performance Beyond RAG

要約

検索された生成(RAG)は、LLM検索機能を強化するための主要で最も広く使用されている技術の1つですが、商業用ユースケースでは依然として大きな制限に直面しています。
RAGは主に、検索のための埋め込みスペースにおけるクエリチャンクテキストとテキストへの類似性に依存しており、チャンク全体のより深いセマンティックな関係を捉えることができず、チャンク戦略に非常に敏感であり、幻覚を起こしやすくなります。
これらの課題に対処するために、最初に非構造化データから動的かつ自動的に知識グラフを構築するグラフベースの検索フレームワークであるTobugraphを提案します。
LLMSを使用して、トブグラフは構造化された知識とデータ間の多様な関係を抽出し、Ragのテキストとテキストの類似性を超えて進みます。
検索は、グラフトラバーサルを通じて達成され、抽出された関係と構造を活用して検索の精度を高め、幻覚を減らしながらチャンキング構成の必要性を排除します。
Toburaphの有効性は、個人の記憶組織と検索のための生産における現実世界のアプリケーションであるTobuでの有効性を示しています。
実際のユーザーデータを使用した評価は、トブグラフが精度とリコールの両方で複数のRAG実装を上回ることを示しており、検索の精度を改善することでユーザーエクスペリエンスを大幅に改善します。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) is one of the leading and most widely used techniques for enhancing LLM retrieval capabilities, but it still faces significant limitations in commercial use cases. RAG primarily relies on the query-chunk text-to-text similarity in the embedding space for retrieval and can fail to capture deeper semantic relationships across chunks, is highly sensitive to chunking strategies, and is prone to hallucinations. To address these challenges, we propose TOBUGraph, a graph-based retrieval framework that first constructs the knowledge graph from unstructured data dynamically and automatically. Using LLMs, TOBUGraph extracts structured knowledge and diverse relationships among data, going beyond RAG’s text-to-text similarity. Retrieval is achieved through graph traversal, leveraging the extracted relationships and structures to enhance retrieval accuracy, eliminating the need for chunking configurations while reducing hallucination. We demonstrate TOBUGraph’s effectiveness in TOBU, a real-world application in production for personal memory organization and retrieval. Our evaluation using real user data demonstrates that TOBUGraph outperforms multiple RAG implementations in both precision and recall, significantly improving user experience through improved retrieval accuracy.

arxiv情報

著者 Savini Kashmira,Jayanaka L. Dantanarayana,Joshua Brodsky,Ashish Mahendra,Yiping Kang,Krisztian Flautner,Lingjia Tang,Jason Mars
発行日 2025-04-01 14:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | TOBUGraph: Knowledge Graph-Based Retrieval for Enhanced LLM Performance Beyond RAG はコメントを受け付けていません

The Computational Complexity of Circuit Discovery for Inner Interpretability

要約

機械学習、認知/脳科学、および社会の解釈可能性の実現可能性に基づいて、機械学習、認知/脳科学、および社会におけるニューラルネットワークの多くのアプリケーションが提案されています。
これには、実行可能なアルゴリズムオプションの経験的および理論的な調査が必要です。
ヒューリスティックの設計とテストの進歩にもかかわらず、解決するために展開されている問題の複雑さの特性を理解していないときに、それらのスケーラビリティと忠実さについて懸念があります。
これに対処するために、古典的およびパラメーター化された計算の複雑さ理論で回路発見を研究します。(1)説明、説明、予測、および制御のためのアフォーダンスの観点から回路を見つけることについての概念的な足場について説明します。
(2)機械的説明のための包括的な一連のクエリセットを正式化し、それらの分析のための正式なフレームワークを提案します。
(3)それを使用して、多くのクエリバリアントの複雑さと、多層パーセプトロンに対する実際的な関心の緩和を解決します。
私たちの調査結果は、挑戦的な複雑さの風景を明らかにしています。
多くのクエリは扱いにくく、モデル/回路の特徴に比べて固定パラメーターが扱いにくいままであり、加法、乗法、および確率的近似スキームの下では近似可能です。
この景観をナビゲートするために、私たちは、これらの困難な問題のいくつかに、よりよく理解されたヒューリスティックに取り組むための変革が存在し、有用なアフォーダンスを保持するより控えめなクエリの扱いやすさまたは固定パラメーターの牽引可能性を証明することを証明します。
このフレームワークにより、解釈可能性のクエリの範囲と制限を理解し、実行可能なオプションを検討し、既存のアーキテクチャと将来のアーキテクチャに関するリソースの要求を比較することができます。

要約(オリジナル)

Many proposed applications of neural networks in machine learning, cognitive/brain science, and society hinge on the feasibility of inner interpretability via circuit discovery. This calls for empirical and theoretical explorations of viable algorithmic options. Despite advances in the design and testing of heuristics, there are concerns about their scalability and faithfulness at a time when we lack understanding of the complexity properties of the problems they are deployed to solve. To address this, we study circuit discovery with classical and parameterized computational complexity theory: (1) we describe a conceptual scaffolding to reason about circuit finding queries in terms of affordances for description, explanation, prediction and control; (2) we formalize a comprehensive set of queries for mechanistic explanation, and propose a formal framework for their analysis; (3) we use it to settle the complexity of many query variants and relaxations of practical interest on multi-layer perceptrons. Our findings reveal a challenging complexity landscape. Many queries are intractable, remain fixed-parameter intractable relative to model/circuit features, and inapproximable under additive, multiplicative, and probabilistic approximation schemes. To navigate this landscape, we prove there exist transformations to tackle some of these hard problems with better-understood heuristics, and prove the tractability or fixed-parameter tractability of more modest queries which retain useful affordances. This framework allows us to understand the scope and limits of interpretability queries, explore viable options, and compare their resource demands on existing and future architectures.

arxiv情報

著者 Federico Adolfi,Martina G. Vilas,Todd Wareham
発行日 2025-04-01 14:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, q-bio.NC | The Computational Complexity of Circuit Discovery for Inner Interpretability はコメントを受け付けていません

Knowledge-Aware Iterative Retrieval for Multi-Agent Systems

要約

動的に進化する知識を活用することにより、クエリを繰り返し洗練し、コンテキストエビデンスをフィルタリングし、フィルターを繰り返します。
システムの決定的な機能は、クエリの生成と証拠の選択の両方をガイドするために徐々に更新される内部知識キャッシュからの外部ソースのデカップリングです。
この設計は、バイアスの拡張ループを軽減し、動的で追跡可能な検索探索パスを可能にし、それにより、多様な情報の探索と自律エージェントの意思決定による精度を維持することとのトレードオフを最適化します。
私たちのアプローチは、特に明示的な推論または計画能力を欠いているLLMの脆弱性を考えると、複数のソースからの情報を統合することが重要である現実世界のシナリオを反映するマルチステップタスクを含む、広範囲のオープンドメイン質問ベンチマークで評価されます。
結果は、提案されたシステムが、タスクの難易度に関係なく単一ステップのベースラインを上回るだけでなく、従来の反復検索方法と比較して、正確なエビデンスに基づいた推論と効率の向上を通じて複雑なタスクの顕著な利点を示していることを示しています。
提案されたシステムは、更新されたコンテキストの競争力と共同共有の両方をサポートし、マルチエージェント拡張を可能にします。
マルチエージェント構成の利点は、タスクの難易度が増加するにつれて特に顕著になります。
収束の数は、タスクの難易度を備えたスケールであり、費用対効果の高いスケーラビリティを示唆しています。

要約(オリジナル)

We introduce a novel large language model (LLM)-driven agent framework, which iteratively refines queries and filters contextual evidence by leveraging dynamically evolving knowledge. A defining feature of the system is its decoupling of external sources from an internal knowledge cache that is progressively updated to guide both query generation and evidence selection. This design mitigates bias-reinforcement loops and enables dynamic, trackable search exploration paths, thereby optimizing the trade-off between exploring diverse information and maintaining accuracy through autonomous agent decision-making. Our approach is evaluated on a broad range of open-domain question answering benchmarks, including multi-step tasks that mirror real-world scenarios where integrating information from multiple sources is critical, especially given the vulnerabilities of LLMs that lack explicit reasoning or planning capabilities. The results show that the proposed system not only outperforms single-step baselines regardless of task difficulty but also, compared to conventional iterative retrieval methods, demonstrates pronounced advantages in complex tasks through precise evidence-based reasoning and enhanced efficiency. The proposed system supports both competitive and collaborative sharing of updated context, enabling multi-agent extension. The benefits of multi-agent configurations become especially prominent as task difficulty increases. The number of convergence steps scales with task difficulty, suggesting cost-effective scalability.

arxiv情報

著者 Seyoung Song
発行日 2025-04-01 14:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, H.3.3 | Knowledge-Aware Iterative Retrieval for Multi-Agent Systems はコメントを受け付けていません

DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩は、多くの研究分野で革命を起こしました。
ロボット工学では、LLMSからタスクとモーション計画への常識的な知識の統合により、前例のないレベルのコンテキスト認識を解き放つことにより、フィールドが大幅に進歩しました。
膨大な知識のコレクションにもかかわらず、大規模な言語モデルは、幻覚やドメイン情報の欠落により、実行不可能な計画を生成する可能性があります。
これらの課題に対処し、計画の実現可能性と計算効率を改善するために、新しいLLMに基づいたタスク計画アプローチであるDeltaを紹介します。
LLMS内の環境表現としてシーングラフを使用することにより、デルタは正確な計画問題の説明の迅速な生成を達成します。
計画のパフォーマンスを向上させるために、DeltaはLLMを使用して長期タスク目標をサブゴールの自動回復シーケンスに分解し、自動化されたタスクプランナーが複雑な問題を効率的に解決できるようにします。
広範な評価では、デルタが効率的で完全に自動的なタスク計画パイプラインを可能にし、最先端と比較してより高い計画成功率と大幅な計画時間を達成できることを示しています。
プロジェクトWebページ:https://delta-llm.github.io/

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have sparked a revolution across many research fields. In robotics, the integration of common-sense knowledge from LLMs into task and motion planning has drastically advanced the field by unlocking unprecedented levels of context awareness. Despite their vast collection of knowledge, large language models may generate infeasible plans due to hallucinations or missing domain information. To address these challenges and improve plan feasibility and computational efficiency, we introduce DELTA, a novel LLM-informed task planning approach. By using scene graphs as environment representations within LLMs, DELTA achieves rapid generation of precise planning problem descriptions. To enhance planning performance, DELTA decomposes long-term task goals with LLMs into an autoregressive sequence of sub-goals, enabling automated task planners to efficiently solve complex problems. In our extensive evaluation, we show that DELTA enables an efficient and fully automatic task planning pipeline, achieving higher planning success rates and significantly shorter planning times compared to the state of the art. Project webpage: https://delta-llm.github.io/

arxiv情報

著者 Yuchen Liu,Luigi Palmieri,Sebastian Koch,Ilche Georgievski,Marco Aiello
発行日 2025-04-01 14:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models はコメントを受け付けていません

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

要約

大規模な言語モデル(LLM)およびビジョン言語モデル(VLM)は広範な知識を持ち、有望な推論能力を示していますが、複雑で動的な環境でうまく機能するのに苦労しています。
実際のタスクでは、複雑な相互作用、高度な空間推論、長期計画、およびこれらの機能を包括的に評価するための効果的な方法論がない新しい戦略の継続的な調査を処理する必要があります。
このギャップに対処するために、多様な一連の挑戦的なゲームを通じてLLMとVLMのエージェント機能を評価するために設計された新しいベンチマークであるBalrogを紹介します。
当社のベンチマークには、数秒で非専門家の人間によって解決可能なタスク(ネタック学習環境など)から数年かかる可能性のある非常に挑戦的なタスクを含む、さまざまなレベルの難易度を持つさまざまな補強学習環境が組み込まれています。
パフォーマンスを測定し、いくつかの一般的なオープンソースとクローズドソースのLLMSおよびVLMの広範な評価を実施するために、きめ細かいメトリックを考案します。
私たちの調査結果は、現在のモデルがより簡単なゲームで部分的な成功を達成する一方で、より挑戦的なタスクと大幅に苦労していることを示しています。
特に、環境の視覚的表現が提供されるといくつかのモデルが悪化するため、ビジョンベースの意思決定において深刻な欠陥が観察されます。
Balrogをオープンでユーザーフレンドリーなベンチマークとしてリリースし、エージェントコミュニティの将来の研究開発を促進します。
Balrogai.comのコードとリーダーボード。

要約(オリジナル)

Large Language Models (LLMs) and Vision Language Models (VLMs) possess extensive knowledge and exhibit promising reasoning abilities, however, they still struggle to perform well in complex, dynamic environments. Real-world tasks require handling intricate interactions, advanced spatial reasoning, long-term planning, and continuous exploration of new strategies-areas in which we lack effective methodologies for comprehensively evaluating these capabilities. To address this gap, we introduce BALROG, a novel benchmark designed to assess the agentic capabilities of LLMs and VLMs through a diverse set of challenging games. Our benchmark incorporates a range of existing reinforcement learning environments with varying levels of difficulty, including tasks that are solvable by non-expert humans in seconds to extremely challenging ones that may take years to master (e.g., the NetHack Learning Environment). We devise fine-grained metrics to measure performance and conduct an extensive evaluation of several popular open-source and closed-source LLMs and VLMs. Our findings indicate that while current models achieve partial success in the easier games, they struggle significantly with more challenging tasks. Notably, we observe severe deficiencies in vision-based decision-making, as several models perform worse when visual representations of the environments are provided. We release BALROG as an open and user-friendly benchmark to facilitate future research and development in the agentic community. Code and Leaderboard at balrogai.com.

arxiv情報

著者 Davide Paglieri,Bartłomiej Cupiał,Samuel Coward,Ulyana Piterbarg,Maciej Wolczyk,Akbir Khan,Eduardo Pignatelli,Łukasz Kuciński,Lerrel Pinto,Rob Fergus,Jakob Nicolaus Foerster,Jack Parker-Holder,Tim Rocktäschel
発行日 2025-04-01 14:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games はコメントを受け付けていません

Explainable Bayesian Optimization

要約

サイバー物理システムの手動パラメーターチューニングは一般的な慣行ですが、労働集約型です。
Bayesian Optimization(BO)は自動化された代替品を提供しますが、そのブラックボックスの性質は信頼を削減し、人間-BOの共同システムの調整を制限します。
専門家は、説明がないため、BOの推奨事項を解釈するのに苦労しています。
このペーパーでは、サイバー物理システムの事後のBO説明可能性の問題について説明します。
TNTRULE(Tune-No-Tuneルール)を紹介します。これは、BOの推奨事項についてグローバルな説明とローカルの両方の説明を提供する新しいアルゴリズムです。
TNTRULEは、実用的なルールと視覚グラフを生成し、最適なソリューションの境界と範囲、および潜在的な代替ソリューションを識別します。
既存の説明可能なAI(XAI)メソッドとは異なり、TNTRULEは、分散剪定技術と階層的凝集クラスタリングを介して不確実性をエンコードすることにより、BO専用に調整されています。
多目的最適化アプローチにより、説明の品質を最大化できます。
確立されたXaiメトリック(正確性、完全性、コンパクトさ)を使用してTNTRULEを評価し、適応したベースライン方法と比較します。
結果は、TNTRULEが高忠実度、コンパクト、および完全な説明を生成し、5つの多目的テスト機能と2つのハイパーパラメーターチューニングの問題に関する3つのベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Manual parameter tuning of cyber-physical systems is a common practice, but it is labor-intensive. Bayesian Optimization (BO) offers an automated alternative, yet its black-box nature reduces trust and limits human-BO collaborative system tuning. Experts struggle to interpret BO recommendations due to the lack of explanations. This paper addresses the post-hoc BO explainability problem for cyber-physical systems. We introduce TNTRules (Tune-No-Tune Rules), a novel algorithm that provides both global and local explanations for BO recommendations. TNTRules generates actionable rules and visual graphs, identifying optimal solution bounds and ranges, as well as potential alternative solutions. Unlike existing explainable AI (XAI) methods, TNTRules is tailored specifically for BO, by encoding uncertainty via a variance pruning technique and hierarchical agglomerative clustering. A multi-objective optimization approach allows maximizing explanation quality. We evaluate TNTRules using established XAI metrics (Correctness, Completeness, and Compactness) and compare it against adapted baseline methods. The results demonstrate that TNTRules generates high-fidelity, compact, and complete explanations, significantly outperforming three baselines on 5 multi-objective testing functions and 2 hyperparameter tuning problems.

arxiv情報

著者 Tanmay Chakraborty,Christian Wirth,Christin Seifert
発行日 2025-04-01 15:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Explainable Bayesian Optimization はコメントを受け付けていません

AI-Powered Bayesian Inference

要約

生成人工知能(GAI)の出現は、社会が知識の習得について考える方法を変えた変曲点を告げました。
GAIは意思決定に対して完全に信頼することはできませんが、決定パイプラインに統合できる貴重な情報を提供する場合があります。
ガイの確実性と固有のランダム性の欠如を問題として見るのではなく、私たちはそれを機会と見なしています。
実際、指定されたプロンプトに対するさまざまな回答を活用して、AI予測の保証を反映する事前の分布を構築することができます。
この事前の分布は、AI駆動型の事前に完全にベイジアン分析を行うために、カスタマイズされたデータセットと組み合わせることができます。
この論文では、ノンパラメトリックベイジアンフレームワーク内でそのような可能性を探ります。
基本的なアイデアは、データ生成モデルを使用したデータ生成分布に関するDirichletプロセスの事前分布をそのベースラインとして割り当てることで構成されています。
前のハイパーパラメーターは、サンプル外で調整して、AI事前の情報性を評価できます。
後部シミュレーションは、観測された(ラベル付けされた)データと、AIを使用してラベルが帰属している偽データで構成される拡張データで適切にランダム化された機能を計算することによって達成されます。
この戦略は並行して、条件からのサンプリングとは対照的に、最適化により事後からIIDサンプルを迅速に生成できます。
私たちの方法により、(予測)推論と不確実性の定量化が、AI予測をコヒーレントな確率的方法で活用します。

要約(オリジナル)

The advent of Generative Artificial Intelligence (GAI) has heralded an inflection point that changed how society thinks about knowledge acquisition. While GAI cannot be fully trusted for decision-making, it may still provide valuable information that can be integrated into a decision pipeline. Rather than seeing the lack of certitude and inherent randomness of GAI as a problem, we view it as an opportunity. Indeed, variable answers to given prompts can be leveraged to construct a prior distribution which reflects assuredness of AI predictions. This prior distribution may be combined with tailored datasets for a fully Bayesian analysis with an AI-driven prior. In this paper, we explore such a possibility within a non-parametric Bayesian framework. The basic idea consists of assigning a Dirichlet process prior distribution on the data-generating distribution with AI generative model as its baseline. Hyper-parameters of the prior can be tuned out-of-sample to assess the informativeness of the AI prior. Posterior simulation is achieved by computing a suitably randomized functional on an augmented data that consists of observed (labeled) data as well as fake data whose labels have been imputed using AI. This strategy can be parallelized and rapidly produces iid samples from the posterior by optimization as opposed to sampling from conditionals. Our method enables (predictive) inference and uncertainty quantification leveraging AI predictions in a coherent probabilistic manner.

arxiv情報

著者 Veronika Ročková,Sean O’Hagan
発行日 2025-04-01 15:27:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, stat.ME, stat.ML | AI-Powered Bayesian Inference はコメントを受け付けていません

An Optimistic-Robust Approach for Dynamic Positioning of Omnichannel Inventories

要約

新しいクラスのデータ駆動型で流通のない楽観的なロビーバストバイモーダルインベントリオプティメーション(BIO)戦略を導入して、時代の不確実なオムニチャネル需要を満たすために、小売チェーン全体に在庫を効果的に割り当てます。
バイオのバイモーダルの性質は、最悪の敵対的な需要に焦点を当てた従来の堅牢な最適化(RO)のように、マウガンサイドリスクのバランスをとる能力に由来し、平均ケースのパフォーマンスを向上させる可能性があります。
これにより、内因性の外れ値のために失われる利点をキャプチャしながら、BioはROと同じくらい回復力があり続けることができます。
オムニチャネル在庫計画は、店舗での販売の損失とクロスチャネルeコマースフルフィルメントコストの間のトレードオフを管理する際のバイオのバイモーダル戦略の有効性を分析するための適切な問題設定を提供します。
バイオソリューションと、堅牢性と平均ケースのパフォーマンスの間の優先トレードオフを達成するためにそれを調整する方法についての構造的洞察を提供します。
アメリカの大規模なオムニチャネル小売チェーンからの実際のデータセットを使用して、ピーク期間中のビジネス価値評価は、バイオが実現された平均収益性の点で純粋なROを27%上回り、不完全な分布情報の下で他の競合ベースラインを10%以上上回ることを示しています。
これは、Bioが堅牢性のバランスをとりながら、強力な平均パフォーマンスを達成する伝統的なROに代わる、斬新でデータ駆動型の分布のない代替品を提供することを示しています。

要約(オリジナル)

We introduce a new class of data-driven and distribution-free optimistic-robust bimodal inventory optimization (BIO) strategy to effectively allocate inventory across a retail chain to meet time-varying, uncertain omnichannel demand. The bimodal nature of BIO stems from its ability to balance downside risk, as in traditional Robust Optimization (RO), which focuses on worst-case adversarial demand, with upside potential to enhance average-case performance. This enables BIO to remain as resilient as RO while capturing benefits that would otherwise be lost due to endogenous outliers. Omnichannel inventory planning provides a suitable problem setting for analyzing the effectiveness of BIO’s bimodal strategy in managing the tradeoff between lost sales at stores and cross-channel e-commerce fulfillment costs, factors that are inherently asymmetric due to channel-specific behaviors. We provide structural insights about the BIO solution and how it can be tuned to achieve a preferred tradeoff between robustness and the average-case performance. Using a real-world dataset from a large American omnichannel retail chain, a business value assessment during a peak period indicates that BIO outperforms pure RO by 27% in terms of realized average profitability and surpasses other competitive baselines under imperfect distributional information by over 10%. This demonstrates that BIO provides a novel, data-driven, and distribution-free alternative to traditional RO that achieves strong average performance while carefully balancing robustness.

arxiv情報

著者 Pavithra Harsha,Shivaram Subramanian,Ali Koc,Mahesh Ramakrishna,Brian Quanz,Dhruv Shah,Chandra Narayanaswami
発行日 2025-04-01 15:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.OC | An Optimistic-Robust Approach for Dynamic Positioning of Omnichannel Inventories はコメントを受け付けていません

Large Language Models are In-Context Molecule Learners

要約

大規模な言語モデル(LLMS)は、生化学的タスク、特に分子と自然言語のテキストの間のギャップを埋めることを目的とする分子キャプション翻訳タスクで並外れた性能を示しています。
ただし、LLMSを分子キャプチャ翻訳タスクに適応させる以前の方法には、追加のドメイン固有のトレーニング段階が必要でした。分子スペースとテキストスペースの間の弱いアライメント、またはLLMSのスケールに厳しい要求を課しました。
課題を解決するために、LLMがコンテキスト分子チューニングを介してコンテキスト例から分子テキストアライメントを学習できるようにする新しいパラダイムとして、コンテキスト内分子適応(ICMA)を提案します。
具体的には、ICMAには次の3つの段階が組み込まれています:ハイブリッドコンテキストの検索、retリーバル後の再ランク、およびコンテキスト内分子チューニング。
当初、ハイブリッドコンテキストの検索は、BM25キャプションの検索と分子グラフの検索を利用して、同様の有益なコンテキストの例を取得します。
さらに、retリーバル後の再ランクは、シーケンスの逆転とランダムウォークの選択で構成され、検索結果の品質をさらに向上させます。
最後に、コンテキスト内分子チューニングは、取得した例を使用してLLMのコンテキスト内学習と推論能力のロックを解除し、LLMのパラメーターを分子とテキスト間のより良いアラインメントのために適応させます。
実験結果は、ICMAがLLMSが追加のトレーニングコーパスや複雑な構造なしで最先端または同等のパフォーマンスを達成できるように力を与えることができることを示しており、LLMが本質的にコンテキスト内分子学習者であることを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional performance in biochemical tasks, especially the molecule caption translation task, which aims to bridge the gap between molecules and natural language texts. However, previous methods in adapting LLMs to the molecule-caption translation task required extra domain-specific pre-training stages, suffered weak alignment between molecular and textual spaces, or imposed stringent demands on the scale of LLMs. To resolve the challenges, we propose In-Context Molecule Adaptation (ICMA), as a new paradigm allowing LLMs to learn the molecule-text alignment from context examples via In-Context Molecule Tuning. Specifically, ICMA incorporates the following three stages: Hybrid Context Retrieval, Post-retrieval Re-ranking, and In-context Molecule Tuning. Initially, Hybrid Context Retrieval utilizes BM25 Caption Retrieval and Molecule Graph Retrieval to retrieve similar informative context examples. Additionally, Post-retrieval Re-ranking is composed of Sequence Reversal and Random Walk selection to further improve the quality of retrieval results. Finally, In-Context Molecule Tuning unlocks the in-context learning and reasoning capability of LLMs with the retrieved examples and adapts the parameters of LLMs for better alignment between molecules and texts. Experimental results demonstrate that ICMA can empower LLMs to achieve state-of-the-art or comparable performance without extra training corpora and intricate structures, showing that LLMs are inherently in-context molecule learners.

arxiv情報

著者 Jiatong Li,Wei Liu,Zhihao Ding,Wenqi Fan,Yuqiang Li,Qing Li
発行日 2025-04-01 16:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Large Language Models are In-Context Molecule Learners はコメントを受け付けていません