Neuro-symbolic Training for Reasoning over Spatial Language

要約

自然言語の表現に基づく空間的推論は、日常の人間の仕事に不可欠です。
この推論能力は、マシンが人間のような方法で環境と対話するためにも重要です。
ただし、最近の研究では、最新の言語モデルでさえ、特に営巣する空間表現に直面している場合、テキストに対する空間的推論に苦労していることが示されています。
これは、一般化に必要な適切なレベルの抽象化を達成しないことに起因します。
この問題を軽減するために、空間的論理ルールを制約として活用する神経副体モデルを使用したトレーニング言語モデルを提案し、空間的推論と質問の回答を改善するための追加の監督を提供します。
空間的推論ルールを順守するための言語モデルのトレーニングは、さまざまなドメインに空間知識を転送するためのより効果的で一般的な抽象化を行う際にガイドします。
既存の空間的質問ベンチマークに関するアプローチを評価します。
私たちの結果は、テキストに対する複雑なマルチホップ空間推論における言語モデルを改善する際の提案された手法の有効性を示しています。

要約(オリジナル)

Spatial reasoning based on natural language expressions is essential for everyday human tasks. This reasoning ability is also crucial for machines to interact with their environment in a human-like manner. However, recent research shows that even state-of-the-art language models struggle with spatial reasoning over text, especially when facing nesting spatial expressions. This is attributed to not achieving the right level of abstraction required for generalizability. To alleviate this issue, we propose training language models with neuro-symbolic techniques that exploit the spatial logical rules as constraints, providing additional supervision to improve spatial reasoning and question answering. Training language models to adhere to spatial reasoning rules guides them in making more effective and general abstractions for transferring spatial knowledge to various domains. We evaluate our approach on existing spatial question-answering benchmarks. Our results indicate the effectiveness of our proposed technique in improving language models in complex multi-hop spatial reasoning over text.

arxiv情報

著者 Tanawan Premsri,Parisa Kordjamshidi
発行日 2025-05-29 17:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Neuro-symbolic Training for Reasoning over Spatial Language はコメントを受け付けていません

SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models

要約

大規模な言語モデル(LLM)は、オンラインコミュニティの節度、メディアコンテンツ分析、社会的推論ゲームなど、社会的に根拠のあるタスクにますます適用されています。
これらのコンテキストでの成功は、モデルの社会的推論能力、つまり社会的文脈を解釈し、他者の精神状態を推測し、提示された情報の真実性を評価する能力に依存します。
ただし、現在、LLMの社会的推論能力を包括的に評価する体系的な評価フレームワークはありません。
既存の取り組みは、多くの場合、実際のシナリオを単純化しすぎており、高度なモデルに挑戦するには基本的すぎるタスクで構成されています。
このギャップに対処するために、SocialMazeを紹介します。SocialMazeは、社会的推論を評価するために特別に設計された新しいベンチマークです。
SocialMazeには、深い推論、動的な相互作用、情報の不確実性という3つのコアの課題が体系的に組み込まれています。
ソーシャル推論ゲーム、日常生活の相互作用、デジタルコミュニティプラットフォームの3つの重要な設定にわたる6つの多様なタスクを提供します。
自動化された検証と人間の検証は、データの品質を確保するために使用されます。
私たちの評価は、いくつかの重要な洞察を明らかにしています。モデルは、動的な相互作用を処理し、一時的に進化する情報を統合する能力が大幅に異なります。
強力なチェーンの推論を備えたモデルは、表面レベルのキューを超えてより深い推論を必要とするタスクでより良いパフォーマンスを発揮します。
モデルの推論は不確実性の下で大幅に低下します。
さらに、キュレーションされた推論例にターゲットを絞った微調整が、複雑なソーシャルシナリオでモデルのパフォーマンスを大幅に改善できることを示しています。
データセットは、https://huggingface.co/datasets/mbzuai/socialmazeで公開されています

要約(オリジナル)

Large language models (LLMs) are increasingly applied to socially grounded tasks, such as online community moderation, media content analysis, and social reasoning games. Success in these contexts depends on a model’s social reasoning ability – the capacity to interpret social contexts, infer others’ mental states, and assess the truthfulness of presented information. However, there is currently no systematic evaluation framework that comprehensively assesses the social reasoning capabilities of LLMs. Existing efforts often oversimplify real-world scenarios and consist of tasks that are too basic to challenge advanced models. To address this gap, we introduce SocialMaze, a new benchmark specifically designed to evaluate social reasoning. SocialMaze systematically incorporates three core challenges: deep reasoning, dynamic interaction, and information uncertainty. It provides six diverse tasks across three key settings: social reasoning games, daily-life interactions, and digital community platforms. Both automated and human validation are used to ensure data quality. Our evaluation reveals several key insights: models vary substantially in their ability to handle dynamic interactions and integrate temporally evolving information; models with strong chain-of-thought reasoning perform better on tasks requiring deeper inference beyond surface-level cues; and model reasoning degrades significantly under uncertainty. Furthermore, we show that targeted fine-tuning on curated reasoning examples can greatly improve model performance in complex social scenarios. The dataset is publicly available at: https://huggingface.co/datasets/MBZUAI/SocialMaze

arxiv情報

著者 Zixiang Xu,Yanbo Wang,Yue Huang,Jiayi Ye,Haomin Zhuang,Zirui Song,Lang Gao,Chenxi Wang,Zhaorun Chen,Yujun Zhou,Sixian Li,Wang Pan,Yue Zhao,Jieyu Zhao,Xiangliang Zhang,Xiuying Chen
発行日 2025-05-29 17:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SocialMaze: A Benchmark for Evaluating Social Reasoning in Large Language Models はコメントを受け付けていません

Don’t Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models

要約

大規模な言語モデル(LLM)は急速な進歩を目撃し、驚くべき能力を示しています。
ただし、顕著な脆弱性は続きます。LLMは、多くの場合、欠陥または矛盾した前提を批判的に受け入れ、非効率的な推論と信頼できない出力につながります。
これは、LLMSの\ textBf {Premise Critique能力}を所有することの重要性を強調し、入力前の施設でエラーを積極的に特定して明確にする能力として定義されます。
ほとんどの既存の研究は、理想的な設定におけるLLMの推論能力を評価し、欠陥のある施設に直面したときの脆弱性をほとんど無視しています。
したがって、3つの難易度レベルに4つのエラータイプを組み込み、多面的な評価メトリックを組み合わせた\ textBf {Premise Critique Bench(PCBench)}を導入します。
15の代表LLMの体系的な評価を実施しました。
私たちの調査結果は、(1)ほとんどのモデルは、限られた自律的な批評を持つエラーを検出するための明示的なプロンプトに大きく依存しています。
(2)前提批評能力は、質問の難易度とエラーの種類に依存し、直接的な矛盾は複雑なエラーや手続き上のエラーよりも検出しやすいです。
(3)推論能力は、前提批評能力と一貫して相関していません。
(4)欠陥のある施設は、推論モデルで考え直され、競合を解決しようとする繰り返しの試みのために応答を著しく延長するトリガーを引き起こします。
これらの洞察は、LLMSの入力妥当性の積極的な評価を強化する緊急の必要性を強調しており、信頼できる人間中心のシステムを開発するための基礎能力として前提批判を配置しています。
このコードは、https://github.com/mlgroupjlu/premise_critiqueで入手できます。

要約(オリジナル)

Large language models (LLMs) have witnessed rapid advancements, demonstrating remarkable capabilities. However, a notable vulnerability persists: LLMs often uncritically accept flawed or contradictory premises, leading to inefficient reasoning and unreliable outputs. This emphasizes the significance of possessing the \textbf{Premise Critique Ability} for LLMs, defined as the capacity to proactively identify and articulate errors in input premises. Most existing studies assess LLMs’ reasoning ability in ideal settings, largely ignoring their vulnerabilities when faced with flawed premises. Thus, we introduce the \textbf{Premise Critique Bench (PCBench)}, designed by incorporating four error types across three difficulty levels, paired with multi-faceted evaluation metrics. We conducted systematic evaluations of 15 representative LLMs. Our findings reveal: (1) Most models rely heavily on explicit prompts to detect errors, with limited autonomous critique; (2) Premise critique ability depends on question difficulty and error type, with direct contradictions being easier to detect than complex or procedural errors; (3) Reasoning ability does not consistently correlate with the premise critique ability; (4) Flawed premises trigger overthinking in reasoning models, markedly lengthening responses due to repeated attempts at resolving conflicts. These insights underscore the urgent need to enhance LLMs’ proactive evaluation of input validity, positioning premise critique as a foundational capability for developing reliable, human-centric systems. The code is available at https://github.com/MLGroupJLU/Premise_Critique.

arxiv情報

著者 Jinzhe Li,Gengxu Li,Yi Chang,Yuan Wu
発行日 2025-05-29 17:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Don’t Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models はコメントを受け付けていません

Length-Controlled Margin-Based Preference Optimization without Reference Model

要約

直接選好最適化(DPO)は、報酬機能を再定義することでトレーニングのシンプルさと安定性を改善するために設計された、人間のフィードバック(RLHF)からの選好ベースの強化学習のために広く採用されているオフラインアルゴリズムです。
ただし、DPOは、長さのバイアス、メモリの非効率性、確率分解など、いくつかの制限によって妨げられています。
これらの課題に対処するために、より効率的で堅牢な代替手段である長さ制御されたマージンベースの優先順位最適化(LMPO)を提案します。
LMPOは、DPO損失の上限として均一な参照モデルを導入し、元の最適化目標のより正確な近似を可能にします。
さらに、トレーニング段階と推論段階の不一致を最小限に抑えるために、平均的なログ確率最適化戦略が採用されています。
LMPOの重要な革新は、ブラッドリーテリーフレームワークに統合された、長さ制御されたマージンベースの損失関数にあります。
この損失関数は応答長を調節し、同時に優先出力と拒否された出力の間のマージンを拡大します。
そうすることで、既存の方法の大きな制限に対処する、受け入れられた応答と廃棄された応答の両方の確率分解を軽減します。
6つの条件付きベンチマークで、2つのオープンエンドの大手言語モデル、MistralとLlama3の最先端の優先最適化技術に対してLMPOを評価します。
実験結果は、LMPOが応答長を効果的に制御し、確率の低下を減らし、既存のアプローチを上回ることを示しています。
このコードは、https://github.com/gengxuli/lmpoで入手できます。

要約(オリジナル)

Direct Preference Optimization (DPO) is a widely adopted offline algorithm for preference-based reinforcement learning from human feedback (RLHF), designed to improve training simplicity and stability by redefining reward functions. However, DPO is hindered by several limitations, including length bias, memory inefficiency, and probability degradation. To address these challenges, we propose Length-Controlled Margin-Based Preference Optimization (LMPO), a more efficient and robust alternative. LMPO introduces a uniform reference model as an upper bound for the DPO loss, enabling a more accurate approximation of the original optimization objective. Additionally, an average log-probability optimization strategy is employed to minimize discrepancies between training and inference phases. A key innovation of LMPO lies in its Length-Controlled Margin-Based loss function, integrated within the Bradley-Terry framework. This loss function regulates response length while simultaneously widening the margin between preferred and rejected outputs. By doing so, it mitigates probability degradation for both accepted and discarded responses, addressing a significant limitation of existing methods. We evaluate LMPO against state-of-the-art preference optimization techniques on two open-ended large language models, Mistral and LLaMA3, across six conditional benchmarks. Our experimental results demonstrate that LMPO effectively controls response length, reduces probability degradation, and outperforms existing approaches. The code is available at https://github.com/gengxuli/LMPO.

arxiv情報

著者 Gengxu Li,Tingyu Xia,Yi Chang,Yuan Wu
発行日 2025-05-29 17:52:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Length-Controlled Margin-Based Preference Optimization without Reference Model はコメントを受け付けていません

Label-Guided In-Context Learning for Named Entity Recognition

要約

コンテキスト内学習(ICL)により、大規模な言語モデル(LLM)は、いくつかのデモンストレーションのみを使用して新しいタスクを実行できます。
名前付きエンティティ認識(NER)では、テストインスタンスとのセマンティックな類似性に基づいて、デモンストレーションは通常、トレーニングラベルを無視し、最適ではないパフォーマンスをもたらします。
ICLパフォーマンスを改善するために、トークンレベルの統計を通じてトレーニングラベルを活用する新しい方法であるディアを紹介します。
ディアは、最初に、エンティティ認識に最も有益なトークンを優先するラベルガイドのトークンベースのレトリーバーで模範を強化します。
次に、LLMにエラーが発生しやすいトークンを再検討するように促します。これは、ラベル統計を使用して識別され、ターゲット補正を行います。
4つの異なるLLMを使用して5つのNERデータセットで評価された鹿は、既存のICLメソッドを常に上回り、監視された微調整のパフォーマンスに近づきます。
さらなる分析では、見られたエンティティと目に見えないエンティティの両方に対する有効性と、低リソース設定での堅牢性が示されています。

要約(オリジナル)

In-context learning (ICL) enables large language models (LLMs) to perform new tasks using only a few demonstrations. In Named Entity Recognition (NER), demonstrations are typically selected based on semantic similarity to the test instance, ignoring training labels and resulting in suboptimal performance. We introduce DEER, a new method that leverages training labels through token-level statistics to improve ICL performance. DEER first enhances example selection with a label-guided, token-based retriever that prioritizes tokens most informative for entity recognition. It then prompts the LLM to revisit error-prone tokens, which are also identified using label statistics, and make targeted corrections. Evaluated on five NER datasets using four different LLMs, DEER consistently outperforms existing ICL methods and approaches the performance of supervised fine-tuning. Further analysis shows its effectiveness on both seen and unseen entities and its robustness in low-resource settings.

arxiv情報

著者 Fan Bai,Hamid Hassanzadeh,Ardavan Saeedi,Mark Dredze
発行日 2025-05-29 17:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Label-Guided In-Context Learning for Named Entity Recognition はコメントを受け付けていません

Towards Explainable Sequential Learning

要約

このホワイトペーパーでは、ハイブリッドの説明可能な時間データ処理パイプライン、データフル説明可能な多変量相関時間的人工知能(emeryate+DF)、検証済みの人工知能原理を通じてイベントベースの分類を橋渡しし、人間と実証可能な結果を​​可能にします。
これは、数値ペイロードと同時構成要素の観点から数値入力データを記述する事後説明可能な段階で可能でした。
これには、同時成分をサポートする仕様マイニングアルゴリズムを設計するために、イベントベースの文献を拡張する必要がありました。
以前の現在および現在のソリューションは、多変量の時系列分類のための最先端のソリューションよりも優れているため、提案された方法論の有効性を示しています。

要約(オリジナル)

This paper offers a hybrid explainable temporal data processing pipeline, DataFul Explainable MultivariatE coRrelatIonal Temporal Artificial inTElligence (EMeriTAte+DF), bridging numerical-driven temporal data classification with an event-based one through verified artificial intelligence principles, enabling human-explainable results. This was possible through a preliminary a posteriori explainable phase describing the numerical input data in terms of concurrent constituents with numerical payloads. This further required extending the event-based literature to design specification mining algorithms supporting concurrent constituents. Our previous and current solutions outperform state-of-the-art solutions for multivariate time series classifications, thus showcasing the effectiveness of the proposed methodology.

arxiv情報

著者 Giacomo Bergami,Emma Packer,Kirsty Scott,Silvia Del Din
発行日 2025-05-29 16:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Towards Explainable Sequential Learning はコメントを受け付けていません

AutoSchemaKG: Autonomous Knowledge Graph Construction through Dynamic Schema Induction from Web-Scale Corpora

要約

事前定義されたスキーマの必要性を排除する完全自律知識グラフ構造のフレームワークであるAutoschemakgを提示します。
当社のシステムは、大規模な言語モデルを活用して、知識トリプルを同時に抽出し、テキストから直接包括的なスキーマを誘導し、エンティティとイベントの両方をモデル化しながら、概念化を使用してインスタンスをセマンティックカテゴリに整理します。
5,000万を超えるドキュメントを処理すると、9億ノードと59億のエッジを持つ知識グラフのファミリーであるAtlas(自動トリプルリンクおよびスキーマ誘導)を構築します。
このアプローチは、マルチホップQAタスクの最先端のベースラインを上回り、LLMの事実性を高めます。
特に、我々のスキーマ誘導は、手動介入がゼロの人間が作成したスキーマと95 \%のセマンティックアラインメントを達成し、動的に誘導されたスキーマを備えた10億個の知識グラフが大規模な言語モデルのパラメトリックな知識を効果的に補完できることを示しています。

要約(オリジナル)

We present AutoSchemaKG, a framework for fully autonomous knowledge graph construction that eliminates the need for predefined schemas. Our system leverages large language models to simultaneously extract knowledge triples and induce comprehensive schemas directly from text, modeling both entities and events while employing conceptualization to organize instances into semantic categories. Processing over 50 million documents, we construct ATLAS (Automated Triple Linking And Schema induction), a family of knowledge graphs with 900+ million nodes and 5.9 billion edges. This approach outperforms state-of-the-art baselines on multi-hop QA tasks and enhances LLM factuality. Notably, our schema induction achieves 95\% semantic alignment with human-crafted schemas with zero manual intervention, demonstrating that billion-scale knowledge graphs with dynamically induced schemas can effectively complement parametric knowledge in large language models.

arxiv情報

著者 Jiaxin Bai,Wei Fan,Qi Hu,Qing Zong,Chunyang Li,Hong Ting Tsang,Hongyu Luo,Yauwai Yim,Haoyu Huang,Xiao Zhou,Feng Qin,Tianshi Zheng,Xi Peng,Xin Yao,Huiwen Yang,Leijie Wu,Yi Ji,Gong Zhang,Renhai Chen,Yangqiu Song
発行日 2025-05-29 16:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AutoSchemaKG: Autonomous Knowledge Graph Construction through Dynamic Schema Induction from Web-Scale Corpora はコメントを受け付けていません

Human Empathy as Encoder: AI-Assisted Depression Assessment in Special Education

要約

特殊教育のような繊細な環境で学生のうつ病を評価することは困難です。
標準化されたアンケートは、学生の真の状況を完全に反映していない場合があります。
さらに、自動化された方法はしばしば、豊かな学生の物語と揺れ動きますが、教師と生徒との共感的なつながりに起因する重要で個別化された洞察が欠けています。
既存の方法は、このあいまいさに対処したり、教育者の理解を効果的に統合したりすることに失敗することがよくあります。
相乗的な人間とAIのコラボレーションを促進することにより、これらの制限に対処するために、このペーパーでは、透明で社会的に責任のあるうつ病の重症度評価のための斬新で人間中心のAIフレームワークであるエンコーダ(HEA)としての人間の共感を紹介します。
私たちのアプローチは、PHQ-9フレームワークによって導かれたその寸法を教師由来の9次元「共感ベクトル」(EV)と独自に統合し、人間の判断を置き換えるのではなく、構造化されたAI入力増強に暗黙の共感的洞察を明示的に変換します。
厳密な実験により、マルチモーダル融合、テキスト表現、分類アーキテクチャが最適化され、7レベルの重大度分類の精度が82.74%を達成しました。
この研究は、人間の共感を構造的に埋め込むことにより、より責任ある倫理的な感情的なコンピューティングへの道を示しています

要約(オリジナル)

Assessing student depression in sensitive environments like special education is challenging. Standardized questionnaires may not fully reflect students’ true situations. Furthermore, automated methods often falter with rich student narratives, lacking the crucial, individualized insights stemming from teachers’ empathetic connections with students. Existing methods often fail to address this ambiguity or effectively integrate educator understanding. To address these limitations by fostering a synergistic human-AI collaboration, this paper introduces Human Empathy as Encoder (HEAE), a novel, human-centered AI framework for transparent and socially responsible depression severity assessment. Our approach uniquely integrates student narrative text with a teacher-derived, 9-dimensional ‘Empathy Vector’ (EV), its dimensions guided by the PHQ-9 framework,to explicitly translate tacit empathetic insight into a structured AI input enhancing rather than replacing human judgment. Rigorous experiments optimized the multimodal fusion, text representation, and classification architecture, achieving 82.74% accuracy for 7-level severity classification. This work demonstrates a path toward more responsible and ethical affective computing by structurally embedding human empathy

arxiv情報

著者 Boning Zhao
発行日 2025-05-29 16:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Human Empathy as Encoder: AI-Assisted Depression Assessment in Special Education はコメントを受け付けていません

YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering

要約

大規模な言語モデル(LLMS)は、最新の検索エンジンで科学的な質問を駆動しますが、その評価の堅牢性は未熟さのままです。
YESCIEVALを紹介します。これは、LLM評価者の楽観主義バイアスを緩和するための、きめ細かいルーブリックベースの評価と強化学習を組み合わせたオープンソースフレームワークです。
複数のLLMの評価スコアを含む、敵対的なバリアントを含む学際的な科学QおよびAデータセットをリリースします。
独自のモデルと人間のフィードバックとは無関係に、当社のアプローチは、スケーラブルでコストのない評価を可能にします。
信頼できるLLM-A-A-Judgeモデルを進めることにより、この作業はAIのアライメントをサポートし、科学的調査に不可欠な堅牢で透明な評価を促進します。

要約(オリジナル)

Large Language Models (LLMs) drive scientific question-answering on modern search engines, yet their evaluation robustness remains underexplored. We introduce YESciEval, an open-source framework that combines fine-grained rubric-based assessment with reinforcement learning to mitigate optimism bias in LLM evaluators. We release multidisciplinary scienceQ&A datasets, including adversarial variants, with evaluation scores from multiple LLMs. Independent of proprietary models and human feedback, our approach enables scalable, cost-free evaluation. By advancing reliable LLM-as-a-judge models, this work supports AI alignment and fosters robust, transparent evaluation essential for scientific inquiry.

arxiv情報

著者 Jennifer D’Souza,Hamed Babaei Giglou,Quentin Münch
発行日 2025-05-29 16:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering はコメントを受け付けていません

Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives

要約

困難な問題をサブ問題に分解すると、多くの場合、それらをより簡単で効率的に解決できるようになります。
大規模な言語モデル(LLM)が能力の増加のための重要な信頼性のしきい値を超えているため、システムをLLMベースのエージェントのセットに分解するための努力が増えています。
ただし、この分解(自動化された場合でも)は、たとえば、人間が人間チームのメンバーに役割を割り当てる方法に基づいて、多くの場合直感的です。
これらの役割分解は最適にどれくらい近いですか?
このポジションペーパーでは、LLMプリミティブを使用した漸近分析は、このような分解されたシステムの効率について推論するために必要であり、そのような分析からの洞察がそれらをスケーリングする機会のロックを解除すると主張しています。
LLMフォワードパスを計算コストの原子単位として扱うことにより、特定のLLMの(しばしば不透明な)内側の仕組みを、LLMのセットがどのように調整されて難しい問題を解決するかという固有の効率から分離できます。
言い換えれば、LLMの展開を制限に拡大したい場合、擬人化LLMSの代わりに、LLMプリミティブを使用した漸近分析を使用して、LLMエージェントへの大きな問題のより強力な分解を推論し、開発する必要があります。

要約(オリジナル)

Decomposing hard problems into subproblems often makes them easier and more efficient to solve. With large language models (LLMs) crossing critical reliability thresholds for a growing slate of capabilities, there is an increasing effort to decompose systems into sets of LLM-based agents, each of whom can be delegated sub-tasks. However, this decomposition (even when automated) is often intuitive, e.g., based on how a human might assign roles to members of a human team. How close are these role decompositions to optimal? This position paper argues that asymptotic analysis with LLM primitives is needed to reason about the efficiency of such decomposed systems, and that insights from such analysis will unlock opportunities for scaling them. By treating the LLM forward pass as the atomic unit of computational cost, one can separate out the (often opaque) inner workings of a particular LLM from the inherent efficiency of how a set of LLMs are orchestrated to solve hard problems. In other words, if we want to scale the deployment of LLMs to the limit, instead of anthropomorphizing LLMs, asymptotic analysis with LLM primitives should be used to reason about and develop more powerful decompositions of large problems into LLM agents.

arxiv情報

著者 Elliot Meyerson,Xin Qiu
発行日 2025-05-29 16:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL, cs.LG, cs.NE | Position: Scaling LLM Agents Requires Asymptotic Analysis with LLM Primitives はコメントを受け付けていません