MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling

要約

ツールを大規模な言語モデル(LLMS)に統合することで、広範なアプリケーションが容易になりました。
それにもかかわらず、専門のダウンストリームタスクのコンテキストでは、ツールのみへの依存は、現実世界の複雑さに完全に対処するには不十分です。
これにより、医学などの分野でのLLMの効果的な展開が特に制限されています。
この論文では、標準化されたテストを使用して個人の健康状態を評価する医療計算機の下流タスクに焦点を当てています。
LLMSのユニバーサルエージェントアーキテクチャであるMentiを紹介します。
Mentiは、専門の医療ツールキットを統合し、LLMツールの利用を強化するためにメタツールおよびネストされた呼び出しメカニズムを採用しています。
具体的には、計算機の選択、スロット充填、ユニット変換など、複雑な医療シナリオで直面する実際的な問題に対処するための柔軟なツール選択とネストされたツール呼び出しを実現します。
計算機シナリオの臨床プロセス全体で定量的評価のためのLLMSの機能を評価するために、CalcqAを紹介します。
このベンチマークでは、LLMが医療計算機を使用して計算を実行し、患者の健康状態を評価する必要があります。
Calcqaは専門医によって構築されており、281の医療ツールのツールキットで補完された100の症例計算因子ペアが含まれています。
実験結果は、フレームワークで大幅なパフォーマンスの改善を示しています。
この研究は、医学の要求の厳しいシナリオにLLMを適用するための新しい方向性を舗装しています。

要約(オリジナル)

Integrating tools into Large Language Models (LLMs) has facilitated the widespread application. Despite this, in specialized downstream task contexts, reliance solely on tools is insufficient to fully address the complexities of the real world. This particularly restricts the effective deployment of LLMs in fields such as medicine. In this paper, we focus on the downstream tasks of medical calculators, which use standardized tests to assess an individual’s health status. We introduce MeNTi, a universal agent architecture for LLMs. MeNTi integrates a specialized medical toolkit and employs meta-tool and nested calling mechanisms to enhance LLM tool utilization. Specifically, it achieves flexible tool selection and nested tool calling to address practical issues faced in intricate medical scenarios, including calculator selection, slot filling, and unit conversion. To assess the capabilities of LLMs for quantitative assessment throughout the clinical process of calculator scenarios, we introduce CalcQA. This benchmark requires LLMs to use medical calculators to perform calculations and assess patient health status. CalcQA is constructed by professional physicians and includes 100 case-calculator pairs, complemented by a toolkit of 281 medical tools. The experimental results demonstrate significant performance improvements with our framework. This research paves new directions for applying LLMs in demanding scenarios of medicine.

arxiv情報

著者 Yakun Zhu,Shaohang Wei,Xu Wang,Kui Xue,Xiaofan Zhang,Shaoting Zhang
発行日 2025-02-14 16:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling はコメントを受け付けていません

SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains

要約

大規模な言語モデル(LLMS)がさまざまなアプリケーションに統合されると、誤用の感受性も増加すると、重大なセキュリティ上の懸念が高まります。
LLMSのセキュリティ防衛を評価するために、多数の脱獄攻撃が提案されています。
現在の脱獄攻撃は、主にシナリオカモフラージュ、迅速な難読化、迅速な最適化、および悪意のあるプロンプトを隠すための迅速な反復最適化に依存しています。
特に、単一のクエリのシーケンシャルプロンプトチェーンは、LLMSが特定のプロンプトに焦点を合わせながら、他のプロンプトを無視し、コンテキスト操作を促進する可能性があります。
このペーパーでは、この脆弱性を活用する新しい脱獄攻撃であるシーケンシャルブレイクを紹介します。
質問バンク、ダイアログの完了、ゲーム環境などの例に限定されないいくつかのシナリオについて説明します。ここでは、有害なプロンプトがLLMSをだまして有害な応答を生成できるように埋め込まれています。
これらのシナリオの明確な物語構造は、シーケンシャルブレイクが議論されているものを超えたさまざまな迅速な形式に適応するのに十分な柔軟性があることを示しています。
広範な実験では、SequentialBreakが1つのクエリのみを使用して、オープンソースモデルとクローズドソースモデルの両方に対して既存のベースラインにわたって攻撃成功率の大幅なゲインを達成することを示しています。
私たちの研究を通じて、LLMのセキュリティを強化し、潜在的な誤用を防ぐために、より堅牢で回復力のある保護手段の緊急の必要性を強調しています。
この調査に関連付けられたすべての結果ファイルとWebサイトは、このGitHubリポジトリで入手できます:https://anonymous.4open.science/r/jail Breakatcack-4f3b/。

要約(オリジナル)

As the integration of the Large Language Models (LLMs) into various applications increases, so does their susceptibility to misuse, raising significant security concerns. Numerous jailbreak attacks have been proposed to assess the security defense of LLMs. Current jailbreak attacks mainly rely on scenario camouflage, prompt obfuscation, prompt optimization, and prompt iterative optimization to conceal malicious prompts. In particular, sequential prompt chains in a single query can lead LLMs to focus on certain prompts while ignoring others, facilitating context manipulation. This paper introduces SequentialBreak, a novel jailbreak attack that exploits this vulnerability. We discuss several scenarios, not limited to examples like Question Bank, Dialog Completion, and Game Environment, where the harmful prompt is embedded within benign ones that can fool LLMs into generating harmful responses. The distinct narrative structures of these scenarios show that SequentialBreak is flexible enough to adapt to various prompt formats beyond those discussed. Extensive experiments demonstrate that SequentialBreak uses only a single query to achieve a substantial gain of attack success rate over existing baselines against both open-source and closed-source models. Through our research, we highlight the urgent need for more robust and resilient safeguards to enhance LLM security and prevent potential misuse. All the result files and website associated with this research are available in this GitHub repository: https://anonymous.4open.science/r/JailBreakAttack-4F3B/.

arxiv情報

著者 Bijoy Ahmed Saiem,MD Sadik Hossain Shanto,Rakib Ahsan,Md Rafi ur Rashid
発行日 2025-02-14 16:32:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains はコメントを受け付けていません

EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges

要約

言語モデルが既存の推論ベンチマークをマスターするため、認知フロンティアを評価するための新しい課題が必要です。
パズル解決イベントは、幅広い高度な推論と知識機能をテストする挑戦的なマルチモーダル問題の豊富なリポジトリであり、フロンティア言語モデルを評価するためのユニークなテストベッドになります。
エニグマーバルを紹介します。これは、暗黙の知識統合とマルチステップの演ductiveな推論を実行するモデルの能力を調査するパズル競争とイベントから派生した問題と解決策のデータセットです。
既存の推論や知識のベンチマークとは異なり、パズル解決課題モデルは、一見無関係な情報の間の隠されたつながりを発見し、ソリューションパスを明らかにします。
ベンチマークは、さまざまな複雑さの1184のパズルで構成されています。それぞれが通常、熟練したソルバーのチームが完了するのに数日から数日までのチームを必要とします – 効率的な評価を可能にする明確で検証可能なソリューションを使用します。
最先端の言語モデルは、人類の最後の試験など、他の困難なベンチマークよりもさらに低いこれらのパズルで非常に低い精度を達成し、構造化されていないおよび横方向の推論を必要とする問題に挑戦した場合のモデルの欠点を明らかにします。

要約(オリジナル)

As language models master existing reasoning benchmarks, we need new challenges to evaluate their cognitive frontiers. Puzzle-solving events are rich repositories of challenging multimodal problems that test a wide range of advanced reasoning and knowledge capabilities, making them a unique testbed for evaluating frontier language models. We introduce EnigmaEval, a dataset of problems and solutions derived from puzzle competitions and events that probes models’ ability to perform implicit knowledge synthesis and multi-step deductive reasoning. Unlike existing reasoning and knowledge benchmarks, puzzle solving challenges models to discover hidden connections between seemingly unrelated pieces of information to uncover solution paths. The benchmark comprises 1184 puzzles of varying complexity — each typically requiring teams of skilled solvers hours to days to complete — with unambiguous, verifiable solutions that enable efficient evaluation. State-of-the-art language models achieve extremely low accuracy on these puzzles, even lower than other difficult benchmarks such as Humanity’s Last Exam, unveiling models’ shortcomings when challenged with problems requiring unstructured and lateral reasoning.

arxiv情報

著者 Clinton J. Wang,Dean Lee,Cristina Menghini,Johannes Mols,Jack Doughty,Adam Khoja,Jayson Lynch,Sean Hendryx,Summer Yue,Dan Hendrycks
発行日 2025-02-14 16:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges はコメントを受け付けていません

A Hybrid Cross-Stage Coordination Pre-ranking Model for Online Recommendation Systems

要約

大規模な推奨システムは、多くの場合、検索、事前ランク、ランキング、および再ランクの段階で構成されるカスケードアーキテクチャを採用しています。
厳密な遅延要件により、事前ランクは軽量モデルを利用して、大規模な回収された候補者からの予備的な選択を実行します。
ただし、最近の研究は、下流の段階にのみ依存して、ランキングとの一貫性の向上にのみ焦点を当てています。
ダウンストリーム入力は事前ランク出力から派生しているため、サンプル選択バイアス(SSB)の問題とマシュー効果を悪化させ、最適な結果をもたらします。
制限に対処するために、上流(検索)および下流(ランキング、再ランキング)段階から情報を統合するための新しいハイブリッドクロスステージ調整前(HCCP)を提案します。
具体的には、クロスステージの調整とは、ストリーム全体に対する事前ランクの適応性と、上流と下流の間のより効果的な橋として機能することの役割を指します。
HCCPは、ハイブリッドサンプル構造とハイブリッドの目的最適化で構成されています。
ハイブリッドサンプル構造は、ストリーム全体からマルチレベルの非露出データをキャプチャし、それらを再配置して、事前ランク学習のための最適なガイド「グラウンドトゥルース」になります。
ハイブリッド目標の最適化には、提案されたマージンインフォンセ損失を通じて、一貫性と長期尾の精度の共同最適化が含まれています。
このようなハイブリッドの非露出サンプルから学習し、全体的なパフォーマンスを改善し、SSBの問題を軽減するように特別に設計されています。
付録では、潜在的な陽性を選択する際の提案された損失の有効性の証拠について説明しています。
オフラインおよびオンラインの広範な実験は、HCCPがクロスステージの調整を改善することによりSOTAメソッドを上回ることを示しています。
JD Eコマース推奨システムでは、最大14.9%のUCVRと1.3%のUCTRに寄与します。
コードプライバシーに関しては、参照用の擬似コードを提供します。

要約(オリジナル)

Large-scale recommendation systems often adopt cascading architecture consisting of retrieval, pre-ranking, ranking, and re-ranking stages. With strict latency requirements, pre-ranking utilizes lightweight models to perform a preliminary selection from massive retrieved candidates. However, recent works focus solely on improving consistency with ranking, relying exclusively on downstream stages. Since downstream input is derived from the pre-ranking output, they will exacerbate the sample selection bias (SSB) issue and Matthew effect, leading to sub-optimal results. To address the limitation, we propose a novel Hybrid Cross-Stage Coordination Pre-ranking model (HCCP) to integrate information from upstream (retrieval) and downstream (ranking, re-ranking) stages. Specifically, cross-stage coordination refers to the pre-ranking’s adaptability to the entire stream and the role of serving as a more effective bridge between upstream and downstream. HCCP consists of Hybrid Sample Construction and Hybrid Objective Optimization. Hybrid sample construction captures multi-level unexposed data from the entire stream and rearranges them to become the optimal guiding ‘ground truth’ for pre-ranking learning. Hybrid objective optimization contains the joint optimization of consistency and long-tail precision through our proposed Margin InfoNCE loss. It is specifically designed to learn from such hybrid unexposed samples, improving the overall performance and mitigating the SSB issue. The appendix describes a proof of the efficacy of the proposed loss in selecting potential positives. Extensive offline and online experiments indicate that HCCP outperforms SOTA methods by improving cross-stage coordination. It contributes up to 14.9% UCVR and 1.3% UCTR in the JD E-commerce recommendation system. Concerning code privacy, we provide a pseudocode for reference.

arxiv情報

著者 Binglei Zhao,Houying Qi,Guang Xu,Mian Ma,Xiwei Zhao,Feng Mei,Sulong Xu,Jinghe Hu
発行日 2025-02-14 16:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | A Hybrid Cross-Stage Coordination Pre-ranking Model for Online Recommendation Systems はコメントを受け付けていません

Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale

要約

大規模な言語モデルの事前トレーニングは、従来、人間の専門家に依存して、コーパスの品質を改善するためにヒューリスティックを作成するために依存しており、これまでに開発された多くのルールが生まれました。
ただし、これらのルールには、個々の例のユニークな特性に効果的に対処する柔軟性がありません。
一方、すべての例にカスタマイズされたルールを適用することは、人間の専門家にとっては非現実的です。
この論文では、わずか0.3bパラメーターを持つ小さな言語モデルでさえ、人間の専門家に匹敵するかなりのデータ洗練機能を示すことができることを実証します。
データの改良をプログラミングタスクとして扱う新しいフレームワークであるすべての例(Prox)を導入し、個々の例ごとの個々の例について、文字列正規化などの微粒操作を生成および実行することにより、モデルがコーパスを改良できるようにします。
実験結果は、プロックスキュレーションデータで事前に訓練されたモデルが、さまざまな下流のベンチマークで他の選択方法によってフィルタリングされた元のデータまたは他の選択方法によってフィルタリングされたデータよりも優れていることを示しています。
その有効性は、C4、Redpajama-V2、FineWeb、FineWeb-Edu、DCLMなど、さまざまなモデルサイズと事前トレーニングコーパスに及びます。
さらに、プロックスは、ドメイン固有の継続的なトレーニングで有意な可能性を示します。ドメイン固有のデザインなしでは、プロックスが人間が作成したルールベースの方法を上回るOpenWebMathで訓練されたモデルは、Mistral-7Bより7.6%、14.6%で平均精度を改善します。
Llama-2-7BおよびCodellama-7Bの20.3%の場合、すべて10Bトークン以内のLLEMMA-7Bなどのモデルに匹敵する200bトークンで訓練されています。
さらなる分析では、プロックスがトレーニングフロップを大幅に節約し、効率的なLLMプリトレーニングのための有望なパスを提供することを強調しています。
私たちは、500Bを超えるコーパス、モデルを備えたオープンソーシングプロックス、再現可能な研究と将来のイノベーションのためのすべてのトレーニングと実装の詳細を共有しています。
コード:https://github.com/gair-nlp/prox

要約(オリジナル)

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, FineWeb, FineWeb-Edu, and DCLM. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training. We are open-sourcing ProX with >500B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

arxiv情報

著者 Fan Zhou,Zengzhi Wang,Qian Liu,Junlong Li,Pengfei Liu
発行日 2025-02-14 16:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale はコメントを受け付けていません

Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations

要約

Rehnection Learning(RL)は、AIモデルの優れたトレーニンググラウンドとして機能する多くのアプリケーション、特にゲームで広く使用されています。
Google Deepmindは、この分野のイノベーションを開拓し、モデルベース、モデルフリー、ディープQネットワークアプローチを含む強化学習アルゴリズムを採用して、Alphago、Alphago Zero、Muzeroなどの高度なAIモデルを作成します。
初期モデルであるAlphagoは、監督された学習と強化学習を統合して、プロの人間のプレイヤーを上回り、GOのゲームを習得します。
Alphago Zeroは、人間のゲームプレイデータへの依存を排除​​することにより、このアプローチを改良し、代わりに学習効率を向上させるために自己プレイを利用します。
Muzeroは、ルールの明示的な知識なしにゲーム環境の基礎となるダイナミクスを学習し、複雑なAtariゲームを含むさまざまなゲームで適応性を達成することにより、これらの進歩をさらに拡張します。
このペーパーでは、Atariおよび戦略ベースのゲームでの強化学習アプリケーションの重要性をレビューし、これら3つのモデル、その主要な革新、トレーニングプロセス、遭遇した課題、および改善を分析します。
さらに、MinizeroやMulti-Agentモデルなど、ゲームの分野での進歩について説明し、Google Deepmindの将来の方向性と新興AIモデルを強調しています。

要約(オリジナル)

Reinforcement Learning (RL) has been widely used in many applications, particularly in gaming, which serves as an excellent training ground for AI models. Google DeepMind has pioneered innovations in this field, employing reinforcement learning algorithms, including model-based, model-free, and deep Q-network approaches, to create advanced AI models such as AlphaGo, AlphaGo Zero, and MuZero. AlphaGo, the initial model, integrates supervised learning and reinforcement learning to master the game of Go, surpassing professional human players. AlphaGo Zero refines this approach by eliminating reliance on human gameplay data, instead utilizing self-play for enhanced learning efficiency. MuZero further extends these advancements by learning the underlying dynamics of game environments without explicit knowledge of the rules, achieving adaptability across various games, including complex Atari games. This paper reviews the significance of reinforcement learning applications in Atari and strategy-based games, analyzing these three models, their key innovations, training processes, challenges encountered, and improvements made. Additionally, we discuss advancements in the field of gaming, including MiniZero and multi-agent models, highlighting future directions and emerging AI models from Google DeepMind.

arxiv情報

著者 Abdelrhman Shaheen,Anas Badr,Ali Abohendy,Hatem Alsaadawy,Nadine Alsayad
発行日 2025-02-14 17:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT | Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations はコメントを受け付けていません

LLM-Powered Preference Elicitation in Combinatorial Assignment

要約

私たちは、組み合わせの割り当てにおける好みの誘発(PE)を簡素化するための人間のプロキシとしての大規模な言語モデル(LLM)の可能性を研究しています。
従来のPEメソッドは、好みをキャプチャするために反復的なクエリに依存していますが、LLMSは人間の努力を減らしたワンショットの代替品を提供します。
SOTA ML駆動の優先順位の誘発スキームと連携して機能するLLMプロキシのフレームワークを提案します。
私たちのフレームワークは、応答の変動や計算コストの増加など、LLMによって導入された新しい課題を処理します。
よく研究されたコース割り当てドメインでの人間の質問に対するLLMプロキシの効率を実験的に評価し、成功に必要なモデル機能を調査します。
私たちのアプローチは、配分効率を最大20%改善し、これらの結果は異なるLLMにわたって堅牢であり、レポートの品質と精度の違いに対して堅牢であることがわかります。

要約(オリジナル)

We study the potential of large language models (LLMs) as proxies for humans to simplify preference elicitation (PE) in combinatorial assignment. While traditional PE methods rely on iterative queries to capture preferences, LLMs offer a one-shot alternative with reduced human effort. We propose a framework for LLM proxies that can work in tandem with SOTA ML-powered preference elicitation schemes. Our framework handles the novel challenges introduced by LLMs, such as response variability and increased computational costs. We experimentally evaluate the efficiency of LLM proxies against human queries in the well-studied course allocation domain, and we investigate the model capabilities required for success. We find that our approach improves allocative efficiency by up to 20%, and these results are robust across different LLMs and to differences in quality and accuracy of reporting.

arxiv情報

著者 Ermis Soumalias,Yanchen Jiang,Kehang Zhu,Michael Curry,Sven Seuken,David C. Parkes
発行日 2025-02-14 17:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG | LLM-Powered Preference Elicitation in Combinatorial Assignment はコメントを受け付けていません

ExplainReduce: Summarising local explanations via proxies

要約

最も一般的に使用される非線形機械学習方法は、人間にとって解釈できないクローズドボックスモデルです。
説明可能な人工知能(XAI)の分野は、これらの閉じたボックスの内部の仕組みを調べるためのツールを開発することを目指しています。
XAIに対する頻繁に使用されるモデルに依存しないアプローチには、局所近似として単純なモデルを使用して、いわゆる局所的な説明を生成することが含まれます。
このアプローチの例には、石灰、整形、スリセマップが含まれます。
このペーパーでは、大規模な一連のローカル説明を、単純なモデルの小さな「プロキシセット」にどのように削減できるかを示しています。これは、生成的なグローバルな説明として機能する可能性があります。
説明されたこの削減手順は、最適化の問題として定式化することができ、貪欲なヒューリスティックを使用して効率的に近似することができます。

要約(オリジナル)

Most commonly used non-linear machine learning methods are closed-box models, uninterpretable to humans. The field of explainable artificial intelligence (XAI) aims to develop tools to examine the inner workings of these closed boxes. An often-used model-agnostic approach to XAI involves using simple models as local approximations to produce so-called local explanations; examples of this approach include LIME, SHAP, and SLISEMAP. This paper shows how a large set of local explanations can be reduced to a small ‘proxy set’ of simple models, which can act as a generative global explanation. This reduction procedure, ExplainReduce, can be formulated as an optimisation problem and approximated efficiently using greedy heuristics.

arxiv情報

著者 Lauri Seppäläinen,Mudong Guo,Kai Puolamäki
発行日 2025-02-14 17:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, I.2.4 | ExplainReduce: Summarising local explanations via proxies はコメントを受け付けていません

Process Reward Models for LLM Agents: Practical Framework and Directions

要約

LLMエージェントをトレーニングするためのシンプルでスケーラブルなフレームワークであるエージェントプロセス報酬モデル(AgentPRM)を紹介し、相互作用を通じて継続的に改善します。
AgentPRMは、モンテカルロロールアウトを使用して報酬目標を計算し、ポリシーを最適化するために、軽量の俳優criticパラダイムに従います。
既存のRLHFパイプラインを最小限に抑える必要があり、大規模に統合しやすくします。
AgentPrmを超えて、inversePrmを提案します。これは、明示的な結果監督なしでプロセスの報酬をデモンストレーションから直接学習します。
また、探査、プロセス報酬の形成、モデル予測の推論など、重要な課題と機会を探ります。
AlfWorldベンチマークで評価し、AgentPRMとInversePRMでトレーニングされた小さな3Bモデルが強力なGPT-4Oベースラインよりも優れていることを示し、テスト時間スケーリング、報酬ハッキングなどを分析します。
私たちのコードは、https://github.com/sanjibanc/agent_prmで入手できます。

要約(オリジナル)

We introduce Agent Process Reward Models (AgentPRM), a simple and scalable framework for training LLM agents to continually improve through interactions. AgentPRM follows a lightweight actor-critic paradigm, using Monte Carlo rollouts to compute reward targets and optimize policies. It requires minimal modifications to existing RLHF pipelines, making it easy to integrate at scale. Beyond AgentPRM, we propose InversePRM, which learns process rewards directly from demonstrations without explicit outcome supervision. We also explore key challenges and opportunities, including exploration, process reward shaping, and model-predictive reasoning. We evaluate on ALFWorld benchmark, show that small 3B models trained with AgentPRM and InversePRM outperform strong GPT-4o baselines, and analyze test-time scaling, reward hacking, and more. Our code is available at: https://github.com/sanjibanc/agent_prm.

arxiv情報

著者 Sanjiban Choudhury
発行日 2025-02-14 17:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Process Reward Models for LLM Agents: Practical Framework and Directions はコメントを受け付けていません

ResearchArena: Benchmarking Large Language Models’ Ability to Collect and Organize Information as Research Agents

要約

大規模な言語モデル(LLM)は、多くの自然言語処理タスクで優れていますが、研究調査の実施などのドメイン固有の分析タスクで課題に直面しています。
この研究では、学術調査の基本的なステップの学術調査$ \ unicode {x2013} $を実施する際にLLMSの機能を評価するために設計されたベンチマークであるResearchArenaを紹介します。
ResearchArenaは、3つの段階でプロセスをモデル化します。(1)情報の発見、関連する文献の特定。
(2)情報の選択、論文の関連性と影響の評価。
(3)情報組織、マインドマップなどの階層的なフレームワークへの知識を構成する。
特に、マインドマップの構築は、調査執筆における補足的な役割を反映して、ボーナスタスクとして扱われます。
これらの評価をサポートするために、12mフルテキストのアカデミックペーパーと7.9kの調査論文のオフライン環境を構築します。
倫理的コンプライアンスを確保するために、著作権で保護された材料を再分配しません。
代わりに、Semantic Sc​​holar Open Research Corpus(S2ORC)から環境を構築するためのコードを提供します。
予備的な評価により、LLMベースのアプローチは、より単純なキーワードベースの検索方法と比較してパフォーマンスが低いことが明らかになり、自律研究でLLMを進めるための重要な機会を強調しています。

要約(オリジナル)

Large language models (LLMs) excel across many natural language processing tasks but face challenges in domain-specific, analytical tasks such as conducting research surveys. This study introduces ResearchArena, a benchmark designed to evaluate LLMs’ capabilities in conducting academic surveys$\unicode{x2013}$a foundational step in academic research. ResearchArena models the process in three stages: (1) information discovery, identifying relevant literature; (2) information selection, evaluating papers’ relevance and impact; and (3) information organization, structuring knowledge into hierarchical frameworks such as mind-maps. Notably, mind-map construction is treated as a bonus task, reflecting its supplementary role in survey-writing. To support these evaluations, we construct an offline environment of 12M full-text academic papers and 7.9K survey papers. To ensure ethical compliance, we do not redistribute copyrighted materials; instead, we provide code to construct the environment from the Semantic Scholar Open Research Corpus (S2ORC). Preliminary evaluations reveal that LLM-based approaches underperform compared to simpler keyword-based retrieval methods, underscoring significant opportunities for advancing LLMs in autonomous research.

arxiv情報

著者 Hao Kang,Chenyan Xiong
発行日 2025-02-14 17:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | ResearchArena: Benchmarking Large Language Models’ Ability to Collect and Organize Information as Research Agents はコメントを受け付けていません