Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

要約

モデルがソリューションの前に出力を生成する中間トークン生成(ITG)は、推論タスクで言語モデルのパフォーマンスを改善する方法として提案されています。
これらの中間トークンは、「推論の痕跡」または「思考」と呼ばれています。モデルを暗黙的に擬人化し、これらのトークンが挑戦的な問題を解決するときにとる可能性のあるステップに似ていることを暗示しています。この論文では、この擬人化は無害なメタファーではないという証拠を提示します。

要約(オリジナル)

Intermediate token generation (ITG), where a model produces output before the solution, has been proposed as a method to improve the performance of language models on reasoning tasks. These intermediate tokens have been called ‘reasoning traces’ or even ‘thoughts’ — implicitly anthropomorphizing the model, implying these tokens resemble steps a human might take when solving a challenging problem.In this paper, we present evidence that this anthropomorphization isn’t a harmless metaphor, and instead is quite dangerous — it confuses the nature of these models and how to use them effectively, and leads to questionable research.

arxiv情報

著者 Subbarao Kambhampati,Kaya Stechly,Karthik Valmeekam,Lucas Saldyt,Siddhant Bhambri,Vardhan Palod,Atharva Gundawar,Soumya Rani Samineni,Durgesh Kalwar,Upasana Biswas
発行日 2025-05-27 16:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces! はコメントを受け付けていません

Sequential Resource Trading Using Comparison-Based Gradient Estimation

要約

自律エージェントは、他の自律エージェントや未知の好みを持つ人間と相互作用して、環境でリソースを共有します。
2つの貪欲に合理的なエージェントが有限のカテゴリセットからリソースを順番に取引する設定で、リソース割り当ての連続的な取引を検討します。
各エージェントには、各カテゴリにあるリソースの量に依存するユーティリティ関数があります。
提供エージェントは、応答エージェントのユーティリティ機能を知らずにユーティリティを改善するための貿易オファーを行い、応答エージェントはユーティリティを改善するオファーのみを受け入れます。
自律剤と別の自律剤または人間の間の協力を促進するために、私たちは、応答エージェントの勾配(設定)を推定し、以前の受け入れまたは拒否の反応に基づいてオファーを作成するための提供エージェントにアルゴリズムを提示します。
アルゴリズムの目標は、受け入れられた取引ごとに両方のエージェントのユーティリティが改善することを保証しながら、パレート最適なリソース割り当て状態に到達することです。
アルゴリズムは、潜在的な勾配の空間を剪定するために、拒否された申し出と貪欲な合理性の仮定を活用することにより、応答エージェントの勾配を推定します。
アルゴリズムが有限の数の拒否されたオファーを作成した後、アルゴリズムは相互に有益な取引を見つけたり、現在の状態が最適であることを証明することを示しています。
提案されたアルゴリズムを、継続的および離散的な取引シナリオのさまざまなベースラインと比較し、より少ないオファーで社会的利益を改善することを示します。
さらに、これらの調査結果は、人間の参加者とのユーザー調査で検証します。ここでは、エージェントの目標が整合しているため、リソースの競合が高いシナリオでアルゴリズムが高性能を達成します。

要約(オリジナル)

Autonomous agents interact with other autonomous agents and humans of unknown preferences to share resources in their environment. We explore sequential trading for resource allocation in a setting where two greedily rational agents sequentially trade resources from a finite set of categories. Each agent has a utility function that depends on the amount of resources it possesses in each category. The offering agent makes trade offers to improve its utility without knowing the responding agent’s utility function, and the responding agent only accepts offers that improve its utility. To facilitate cooperation between an autonomous agent and another autonomous agent or a human, we present an algorithm for the offering agent to estimate the responding agent’s gradient (preferences) and make offers based on previous acceptance or rejection responses. The algorithm’s goal is to reach a Pareto-optimal resource allocation state while ensuring that the utilities of both agents improve after every accepted trade. The algorithm estimates the responding agent’s gradient by leveraging the rejected offers and the greedy rationality assumption, to prune the space of potential gradients. We show that, after the algorithm makes a finite number of rejected offers, the algorithm either finds a mutually beneficial trade or certifies that the current state is epsilon-weakly Pareto optimal. We compare the proposed algorithm against various baselines in continuous and discrete trading scenarios and show that it improves the societal benefit with fewer offers. Additionally, we validate these findings in a user study with human participants, where the algorithm achieves high performance in scenarios with high resource conflict due to aligned agent goals.

arxiv情報

著者 Surya Murthy,Mustafa O. Karabag,Ufuk Topcu
発行日 2025-05-27 16:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, math.OC | Sequential Resource Trading Using Comparison-Based Gradient Estimation はコメントを受け付けていません

MRSD: Multi-Resolution Skill Discovery for HRL Agents

要約

階層補強学習(HRL)は、抽象的なスキルに依存して、長期タスクを効率的に解決します。
既存のスキルディスカバリーメソッドはこれらのスキルを自動的に学習しますが、タスクごとに単一のスキルに制限されています。
対照的に、人間はきめ細かい運動能力と粗い運動能力の両方を同時に学び、使用します。
人間のモーターコントロールに触発されて、さまざまな時間解像度で複数のスキルエンコーダーを並行して学習するHRLフレームワークであるマルチ解像度スキルディスカバリー(MRSD)を提案します。
高レベルのマネージャーがこれらのスキルの中で動的に選択し、時間の経過とともに適応制御戦略を可能にします。
DeepMind Control SuiteのタスクでMRSDを評価し、以前の最先端のスキル発見とHRLメソッドを上回り、収束と最終パフォーマンスの向上を達成することを示しています。
私たちの調査結果は、HRLにマルチ解像度スキルを統合することの利点を強調し、より多用途で効率的なエージェントへの道を開いています。

要約(オリジナル)

Hierarchical reinforcement learning (HRL) relies on abstract skills to solve long-horizon tasks efficiently. While existing skill discovery methods learns these skills automatically, they are limited to a single skill per task. In contrast, humans learn and use both fine-grained and coarse motor skills simultaneously. Inspired by human motor control, we propose Multi-Resolution Skill Discovery (MRSD), an HRL framework that learns multiple skill encoders at different temporal resolutions in parallel. A high-level manager dynamically selects among these skills, enabling adaptive control strategies over time. We evaluate MRSD on tasks from the DeepMind Control Suite and show that it outperforms prior state-of-the-art skill discovery and HRL methods, achieving faster convergence and higher final performance. Our findings highlight the benefits of integrating multi-resolution skills in HRL, paving the way for more versatile and efficient agents.

arxiv情報

著者 Shashank Sharma,Janina Hoffmann,Vinay Namboodiri
発行日 2025-05-27 16:38:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | MRSD: Multi-Resolution Skill Discovery for HRL Agents はコメントを受け付けていません

How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation

要約

大規模な言語モデル(LLM)は多様なシナリオに広く展開されているため、誤った情報を暗黙のうちに広めることができる程度は、重大な安全性の懸念として浮上します。
現在の研究は、主に明示的な虚偽の陳述に関するLLMを評価し、誤報が現実世界の相互作用において挑戦されていない前提として微妙に現れることが多いことを見落としています。
誤った誤った情報のための最初の包括的なベンチマークであるエコム主義者をキュレーションしました。そこでは、誤った仮定がLLMSへのクエリに埋め込まれています。
エコー主義者の標的は、現実的な人間との会話やソーシャルメディアの相互作用を含む、多様な情報源からの循環、有害、そして絶えず進化し続ける暗黙の誤った情報を循環しています。
15の最先端のLLMに関する広範な経験的研究を通じて、現在のモデルはこのタスクで驚くほど不十分に機能し、多くの場合、誤った前提を検出し、反事実的な説明を生成しないことがわかります。
また、暗黙の誤った情報に対抗するためのLLMSの能力を高めるために、2つの緩和方法、つまり自己アラートとぼろきれを調査します。
私たちの調査結果は、エコー主義者が永続的な課題であり続け、暗黙の誤った情報のリスクを防ぐための重要な必要性を強調していることを示しています。

要約(オリジナル)

As Large Language Models (LLMs) are widely deployed in diverse scenarios, the extent to which they could tacitly spread misinformation emerges as a critical safety concern. Current research primarily evaluates LLMs on explicit false statements, overlooking how misinformation often manifests subtly as unchallenged premises in real-world interactions. We curated EchoMist, the first comprehensive benchmark for implicit misinformation, where false assumptions are embedded in the query to LLMs. EchoMist targets circulated, harmful, and ever-evolving implicit misinformation from diverse sources, including realistic human-AI conversations and social media interactions. Through extensive empirical studies on 15 state-of-the-art LLMs, we find that current models perform alarmingly poorly on this task, often failing to detect false premises and generating counterfactual explanations. We also investigate two mitigation methods, i.e., Self-Alert and RAG, to enhance LLMs’ capability to counter implicit misinformation. Our findings indicate that EchoMist remains a persistent challenge and underscore the critical need to safeguard against the risk of implicit misinformation.

arxiv情報

著者 Ruohao Guo,Wei Xu,Alan Ritter
発行日 2025-05-27 16:40:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation はコメントを受け付けていません

RefTool: Enhancing Model Reasoning with Reference-Guided Tool Creation

要約

ツールは、複雑な問題解決タスクにおける大規模な言語モデル(LLM)の推論機能を強化しますが、すべてのタスクが利用可能なツールを持っているわけではありません。
事前定義されたツールがない場合、以前の作品は、LLMSに独自にツールを生成するよう指示することを検討しました。
ただし、このようなアプローチは、モデルの内部知識に大きく依存しており、LLMSの知識範囲を超えてドメインで失敗します。
この制限に対処するために、教科書などの構造化された外部材料を活用する自動ツール作成の参照ガイド付きフレームワークであるReftoolを提案します。
RefToolは2つのモジュールで構成されています。(1)ツール作成。これにより、LLMは参照コンテンツから実行可能ファイルツールを生成し、例示的な例を使用して検証し、それらを階層的にツールボックスに編成します。
(2)ツールの使用率。LLMSがツールボックス構造をナビゲートして、問題を解決するための適切なツールを選択および適用する。
因果関係、物理学、および化学ベンチマークに関する実験は、Reftoolが既存のツール作成とドメイン固有の推論方法を平均精度で11.3%上回ることを示していますが、費用対効率が高く、広く一般化可能です。
分析により、参考文献での接地ツールの作成が正確で忠実なツールを生成し、階層構造が効果的なツール選択を促進することが明らかになりました。
Reftoolは、LLMが知識の制限を克服できるようにし、強化された一般化可能な推論のために外部参照における接地ツールの作成の価値を実証します。

要約(オリジナル)

Tools enhance the reasoning capabilities of large language models (LLMs) in complex problem-solving tasks, but not all tasks have available tools. In the absence of predefined tools, prior works have explored instructing LLMs to generate tools on their own. However, such approaches rely heavily on the models’ internal knowledge and would fail in domains beyond the LLMs’ knowledge scope. To address this limitation, we propose RefTool, a reference-guided framework for automatic tool creation that leverages structured external materials such as textbooks. RefTool consists of two modules: (1) tool creation, where LLMs generate executable tools from reference content, validate them using illustrative examples, and organize them hierarchically into a toolbox; and (2) tool utilization, where LLMs navigate the toolbox structure to select and apply the appropriate tools to solve problems. Experiments on causality, physics, and chemistry benchmarks demonstrate that RefTool outperforms existing tool-creation and domain-specific reasoning methods by 11.3% on average accuracy, while being cost-efficient and broadly generalizable. Analyses reveal that grounding tool creation in references produces accurate and faithful tools, and that the hierarchical structure facilitates effective tool selection. RefTool enables LLMs to overcome knowledge limitations, demonstrating the value of grounding tool creation in external references for enhanced and generalizable reasoning.

arxiv情報

著者 Xiao Liu,Da Yin,Zirui Wu,Yansong Feng
発行日 2025-05-27 16:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | RefTool: Enhancing Model Reasoning with Reference-Guided Tool Creation はコメントを受け付けていません

A Framework for Adversarial Analysis of Decision Support Systems Prior to Deployment

要約

このペーパーでは、シミュレーションを通じて発見された学習行動パターンと脆弱性に関する洞察を提供することにより、展開前にディープ補強学習(DRL)で訓練された意思決定サポートシステムを分析および保護するために設計された包括的なフレームワークを紹介します。
導入されたフレームワークは、正確にタイミングとターゲットを絞った観察摂動の開発に役立ち、研究者が戦略的意思決定コンテキスト内で敵対的な攻撃の結果を評価できるようにします。
フレームワークを検証し、エージェントの動作を視覚化し、カスタム構築された戦略的ゲームであるサイバーストライクのコンテキスト内で敵対的な結果を評価します。
提案されたフレームワークを利用して、さまざまな観察指標とタイムステップに対する攻撃の影響を体系的に発見し、ランク付けする方法を導入し、エージェントアーキテクチャとDRLトレーニングアルゴリズムを介した敵対的攻撃の移動性を評価するための実験を実施します。
この調査結果は、ハイステークス環境での意思決定政策を保護するための堅牢な敵対的な防御メカニズムの重要な必要性を強調しています。

要約(オリジナル)

This paper introduces a comprehensive framework designed to analyze and secure decision-support systems trained with Deep Reinforcement Learning (DRL), prior to deployment, by providing insights into learned behavior patterns and vulnerabilities discovered through simulation. The introduced framework aids in the development of precisely timed and targeted observation perturbations, enabling researchers to assess adversarial attack outcomes within a strategic decision-making context. We validate our framework, visualize agent behavior, and evaluate adversarial outcomes within the context of a custom-built strategic game, CyberStrike. Utilizing the proposed framework, we introduce a method for systematically discovering and ranking the impact of attacks on various observation indices and time-steps, and we conduct experiments to evaluate the transferability of adversarial attacks across agent architectures and DRL training algorithms. The findings underscore the critical need for robust adversarial defense mechanisms to protect decision-making policies in high-stakes environments.

arxiv情報

著者 Brett Bissey,Kyle Gatesman,Walker Dimon,Mohammad Alam,Luis Robaina,Joseph Weissman
発行日 2025-05-27 16:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG | A Framework for Adversarial Analysis of Decision Support Systems Prior to Deployment はコメントを受け付けていません

Diagnosing and Resolving Cloud Platform Instability with Multi-modal RAG LLMs

要約

今日のクラウドホストのアプリケーションとサービスは複雑なシステムであり、パフォーマンスまたは機能的不安定性は、数十または数百の潜在的な根本原因を持つことができます。
私たちの仮説は、最新のAIツールのパターンマッチング機能と自然なマルチモーダルRAG LLMインターフェイスを組み合わせることにより、問題の識別と解像度を簡素化できるということです。
ARCAは、このドメインをターゲットにする新しいマルチモーダルラグLLMシステムです。
段階的な評価は、ARCAが最先端の代替案よりも優れていることを示しています。

要約(オリジナル)

Today’s cloud-hosted applications and services are complex systems, and a performance or functional instability can have dozens or hundreds of potential root causes. Our hypothesis is that by combining the pattern matching capabilities of modern AI tools with a natural multi-modal RAG LLM interface, problem identification and resolution can be simplified. ARCA is a new multi-modal RAG LLM system that targets this domain. Step-wise evaluations show that ARCA outperforms state-of-the-art alternatives.

arxiv情報

著者 Yifan Wang,Kenneth P. Birman
発行日 2025-05-27 16:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.OS | Diagnosing and Resolving Cloud Platform Instability with Multi-modal RAG LLMs はコメントを受け付けていません

Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges

要約

時空間的推論は、サイバー物理システム(CPS)で重要な役割を果たします。
大規模な言語モデル(LLMS)と大規模な推論モデル(LRM)の進歩にもかかわらず、複雑な空間的信号について推論する能力は既知のままです。
このペーパーでは、3つのレベルの推論の複雑さにわたってLLMを体系的に評価するために、階層的な空間的推論ベンチマーク、Starkを提案します:状態推定(たとえば、フィールド変数の予測、空間と時間のローカライズと追跡イベント)、状態の時空間的推論(例えば、空間的な関係の推測)、および世界的知識の推論と世界知識の推論
(例えば、意図予測、ランドマーク認識ナビゲーション)。
モデルが直接またはPythonコードインタープリターによって回答する14,552の課題で構成される、多様なセンサーモダリティを備えた26の異なる空間的タスクをキュレートします。
3つのLRMと8 LLMを評価すると、LLMは、特に複雑さが増加するにつれて、幾何学的推論(多層や三角測量など)を必要とするタスクで限られた成功を収めています。
驚くべきことに、LRMSは、さまざまなレベルの難易度を持つタスク全体で堅牢なパフォーマンスを示し、しばしば従来の第一原理ベースの方法を競合または競合したり、それを上回ったりします。
私たちの結果は、世界の知識を必要とする推論タスクでは、LLMSとLRMSのパフォーマンスのギャップが狭くなり、LLMがLRMを上回っていることを示しています。
ただし、LRM O3モデルは、評価されたすべてのタスクで主要なパフォーマンスを達成し続けています。これは、主に推論モデルのより大きなサイズに起因する結果です。
Starkは、LLMとLRMSの時空間的推論の制限を特定するための構造化されたフレームワークを提供することにより、インテリジェントCPSのモデルアーキテクチャと推論パラダイムの将来の革新を動機付けます。

要約(オリジナル)

Spatiotemporal reasoning plays a key role in Cyber-Physical Systems (CPS). Despite advances in Large Language Models (LLMs) and Large Reasoning Models (LRMs), their capacity to reason about complex spatiotemporal signals remains underexplored. This paper proposes a hierarchical SpatioTemporal reAsoning benchmaRK, STARK, to systematically evaluate LLMs across three levels of reasoning complexity: state estimation (e.g., predicting field variables, localizing and tracking events in space and time), spatiotemporal reasoning over states (e.g., inferring spatial-temporal relationships), and world-knowledge-aware reasoning that integrates contextual and domain knowledge (e.g., intent prediction, landmark-aware navigation). We curate 26 distinct spatiotemporal tasks with diverse sensor modalities, comprising 14,552 challenges where models answer directly or by Python Code Interpreter. Evaluating 3 LRMs and 8 LLMs, we find LLMs achieve limited success in tasks requiring geometric reasoning (e.g., multilateration or triangulation), particularly as complexity increases. Surprisingly, LRMs show robust performance across tasks with various levels of difficulty, often competing or surpassing traditional first-principle-based methods. Our results show that in reasoning tasks requiring world knowledge, the performance gap between LLMs and LRMs narrows, with some LLMs even surpassing LRMs. However, the LRM o3 model continues to achieve leading performance across all evaluated tasks, a result attributed primarily to the larger size of the reasoning models. STARK motivates future innovations in model architectures and reasoning paradigms for intelligent CPS by providing a structured framework to identify limitations in the spatiotemporal reasoning of LLMs and LRMs.

arxiv情報

著者 Pengrui Quan,Brian Wang,Kang Yang,Liying Han,Mani Srivastava
発行日 2025-05-27 16:52:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, eess.SP | Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges はコメントを受け付けていません

Learning Individual Behavior in Agent-Based Models with Graph Diffusion Networks

要約

エージェントベースのモデル(ABM)は、複雑なシステムで緊急特性を研究するための強力なツールです。
ABMSでは、エージェントの動作は、局所的な相互作用と確率的ルールによって支配されています。
ただし、これらのルールは一般に、拡張不可能であり、最適化のための勾配ベースの方法の使用、したがって実際のデータとの統合を制限しています。
生成されたデータを観察することにより、ABMの違いのある代理を学習するための新しいフレームワークを提案します。
私たちの方法は、拡散モデルを組み合わせて行動の確率性とグラフニューラルネットワークをキャプチャして、エージェントの相互作用をモデル化します。
以前の代理アプローチとは異なり、私たちの方法は基本的な変化を導入します。システムレベルの出力を近似するのではなく、個々のエージェントの動作を直接モデル化し、ABMを定義する分散型のボトムアップダイナミクスを維持します。
2つのABMS(Schellingの分離モデルとPredator-Preyエコシステム)でのアプローチを検証します。個人レベルのパターンを複製し、トレーニングを超えて緊急ダイナミクスを正確に予測します。
我々の結果は、データ駆動型のABMシミュレーションの拡散モデルとグラフ学習を組み合わせる可能性を示しています。

要約(オリジナル)

Agent-Based Models (ABMs) are powerful tools for studying emergent properties in complex systems. In ABMs, agent behaviors are governed by local interactions and stochastic rules. However, these rules are, in general, non-differentiable, limiting the use of gradient-based methods for optimization, and thus integration with real-world data. We propose a novel framework to learn a differentiable surrogate of any ABM by observing its generated data. Our method combines diffusion models to capture behavioral stochasticity and graph neural networks to model agent interactions. Distinct from prior surrogate approaches, our method introduces a fundamental shift: rather than approximating system-level outputs, it models individual agent behavior directly, preserving the decentralized, bottom-up dynamics that define ABMs. We validate our approach on two ABMs (Schelling’s segregation model and a Predator-Prey ecosystem) showing that it replicates individual-level patterns and accurately forecasts emergent dynamics beyond training. Our results demonstrate the potential of combining diffusion models and graph learning for data-driven ABM simulation.

arxiv情報

著者 Francesco Cozzi,Marco Pangallo,Alan Perotti,André Panisson,Corrado Monti
発行日 2025-05-27 16:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, econ.EM, physics.soc-ph | Learning Individual Behavior in Agent-Based Models with Graph Diffusion Networks はコメントを受け付けていません

Policy Induction: Predicting Startup Success via Explainable Memory-Augmented In-Context Learning

要約

初期段階のスタートアップ投資は、希少なデータと不確実な結果を特徴とするリスクの高い努力です。
従来の機械学習アプローチでは、多くの場合、ラベル付きの大規模なデータセットと広範な微調整が必​​要ですが、ドメインの専門家が解釈または改善するのは不透明で困難です。
この論文では、コンテキスト学習(ICL)を使用して、メモリが熟成した大規模な言語モデル(LLM)を搭載した透明でデータ効率の高い投資決定フレームワークを提案します。
私たちの方法の中心は、LLMプロンプトに直接埋め込まれた自然言語政策であり、モデルが明示的な推論パターンを適用できるようにし、人間の専門家がロジックを簡単に解釈、監査し、繰り返し改善できるようにします。
少数のショット学習とコンテキスト内学習ループを組み合わせた軽量トレーニングプロセスを導入し、LLMが構造化されたフィードバックに基づいて意思決定ポリシーを反復的に更新できるようにします。
監督が最小限で、グラデーションベースの最適化がないため、システムは既存のベンチマークよりもはるかに正確に起動の成功を予測しています。
ランダムなチャンスよりも20倍以上の正確さであり、1.9%の時間を成功させます。
また、トップティアベンチャーキャピタル(VC)企業の典型的な5.6%の成功率よりも7.1倍の正確さです。

要約(オリジナル)

Early-stage startup investment is a high-risk endeavor characterized by scarce data and uncertain outcomes. Traditional machine learning approaches often require large, labeled datasets and extensive fine-tuning, yet remain opaque and difficult for domain experts to interpret or improve. In this paper, we propose a transparent and data-efficient investment decision framework powered by memory-augmented large language models (LLMs) using in-context learning (ICL). Central to our method is a natural language policy embedded directly into the LLM prompt, enabling the model to apply explicit reasoning patterns and allowing human experts to easily interpret, audit, and iteratively refine the logic. We introduce a lightweight training process that combines few-shot learning with an in-context learning loop, enabling the LLM to update its decision policy iteratively based on structured feedback. With only minimal supervision and no gradient-based optimization, our system predicts startup success far more accurately than existing benchmarks. It is over 20x more precise than random chance, which succeeds 1.9% of the time. It is also 7.1x more precise than the typical 5.6% success rate of top-tier venture capital (VC) firms.

arxiv情報

著者 Xianling Mu,Joseph Ternasky,Fuat Alican,Yigit Ihlamur
発行日 2025-05-27 16:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Policy Induction: Predicting Startup Success via Explainable Memory-Augmented In-Context Learning はコメントを受け付けていません