Robin: A multi-agent system for automating scientific discovery

要約

科学的発見は、背景研究、仮説の生成、実験、およびデータ分析の反復プロセスによって推進されています。
人工知能を科学的発見に適用する最近の進歩にもかかわらず、これらのすべての段階を単一のワークフローで自動化したシステムはまだありません。
ここでは、科学プロセスの主要な知的ステップを完全に自動化できる最初のマルチエージェントシステムであるRobinを紹介します。
文献検索エージェントをデータ分析エージェントと統合することにより、ロビンは仮説を生成し、実験を提案し、実験結果を解釈し、更新された仮説を生成し、科学的発見に対する半自律的なアプローチを達成することができます。
このシステムを適用することにより、先進国の失明の主な原因である乾燥年齢に関連した黄斑変性(DAMD)の新しい治療法を特定することができました。
ロビンは、治療戦略として網膜色素上皮貪食を強化することを提案し、有望な治療候補であるRipasudilを特定して検証しました。
Ripasudilは、臨床的に使用されているRhoキナーゼ(ROCK)阻害剤であり、DAMDの治療のためにこれまで提案されたことがありません。
リパスディル誘発性の食作用のアップレギュレーションのメカニズムを解明するために、ロビンはフォローアップRNA-seq実験を提案および分析しました。これにより、ABCA1、重要な脂質流出ポンプ、および可能な新規標的のアップレギュレーションが明らかになりました。
このレポートのメインテキストのすべての仮説、実験計画、データ分析、およびデータの数値は、ロビンによって作成されました。
ロビンは、繰り返しのラボインザループフレームワーク内で新しい治療候補を自律的に発見および検証し、検証した最初のAIシステムとして、AI主導の科学的発見のための新しいパラダイムを確立します。

要約(オリジナル)

Scientific discovery is driven by the iterative process of background research, hypothesis generation, experimentation, and data analysis. Despite recent advancements in applying artificial intelligence to scientific discovery, no system has yet automated all of these stages in a single workflow. Here, we introduce Robin, the first multi-agent system capable of fully automating the key intellectual steps of the scientific process. By integrating literature search agents with data analysis agents, Robin can generate hypotheses, propose experiments, interpret experimental results, and generate updated hypotheses, achieving a semi-autonomous approach to scientific discovery. By applying this system, we were able to identify a novel treatment for dry age-related macular degeneration (dAMD), the major cause of blindness in the developed world. Robin proposed enhancing retinal pigment epithelium phagocytosis as a therapeutic strategy, and identified and validated a promising therapeutic candidate, ripasudil. Ripasudil is a clinically-used rho kinase (ROCK) inhibitor that has never previously been proposed for treating dAMD. To elucidate the mechanism of ripasudil-induced upregulation of phagocytosis, Robin then proposed and analyzed a follow-up RNA-seq experiment, which revealed upregulation of ABCA1, a critical lipid efflux pump and possible novel target. All hypotheses, experimental plans, data analyses, and data figures in the main text of this report were produced by Robin. As the first AI system to autonomously discover and validate a novel therapeutic candidate within an iterative lab-in-the-loop framework, Robin establishes a new paradigm for AI-driven scientific discovery.

arxiv情報

著者 Ali Essam Ghareeb,Benjamin Chang,Ludovico Mitchener,Angela Yiu,Caralyn J. Szostkiewicz,Jon M. Laurent,Muhammed T. Razzak,Andrew D. White,Michaela M. Hinks,Samuel G. Rodriques
発行日 2025-05-19 17:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, q-bio.QM | Robin: A multi-agent system for automating scientific discovery はコメントを受け付けていません

AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database

要約

数学知識グラフ(kg)は、数学の分野内で構造化された方法で知識を提示します。
自然言語を使用して数学kgを構築することは、不可欠だが挑戦的な作業です。
既存の作品には2つの主要な制限があります。最初に、それらはコーパスの完全性によって制約されており、多くの場合、不完全な知識を破棄または手動で補完します。
第二に、彼らは通常、多様な知識ソースの統合を完全に自動化することができません。
このホワイトペーパーでは、自動更新が可能な高品質、幅広い、多次元数学kgであるAutomathkgを提案します。
AutomAthKGは、数学を定義、定理、および問題の実体で構成される広大な指示グラフと見なし、参照関係をエッジとしています。
ProofWiki、教科書、Arxiv論文、およびTheoremqaの知識を統合し、データ増強のためのコンテキスト学習を介して、大規模な言語モデル(LLMS)との関係を強化します。
同様のエンティティを検索するために、ベクトルデータベースであるMathVDは、Stbertを使用して2つの設計された埋め込み戦略を通じて構築されます。
自動的に更新するために、2つのメカニズムが提案されています。
知識の完了メカニズムのために、Math LLMはAutomathKGと対話するために開発され、不足している証明または解決策を提供します。
ナレッジフュージョンメカニズムのために、MATHVDは同様のエンティティを取得するために使用され、LLMは候補者とマージするか、新しいエンティティとして追加するかを決定するために使用されます。
幅広い実験は、5つのベースラインとMath LLMの堅牢な数学的推論能力と比較して、MathVDの優れた到達可能性クエリ結果を含む、AutomAthKGシステムの高度なパフォーマンスと幅広い適用性を示しています。

要約(オリジナル)

A mathematical knowledge graph (KG) presents knowledge within the field of mathematics in a structured manner. Constructing a math KG using natural language is an essential but challenging task. There are two major limitations of existing works: first, they are constrained by corpus completeness, often discarding or manually supplementing incomplete knowledge; second, they typically fail to fully automate the integration of diverse knowledge sources. This paper proposes AutoMathKG, a high-quality, wide-coverage, and multi-dimensional math KG capable of automatic updates. AutoMathKG regards mathematics as a vast directed graph composed of Definition, Theorem, and Problem entities, with their reference relationships as edges. It integrates knowledge from ProofWiki, textbooks, arXiv papers, and TheoremQA, enhancing entities and relationships with large language models (LLMs) via in-context learning for data augmentation. To search for similar entities, MathVD, a vector database, is built through two designed embedding strategies using SBERT. To automatically update, two mechanisms are proposed. For knowledge completion mechanism, Math LLM is developed to interact with AutoMathKG, providing missing proofs or solutions. For knowledge fusion mechanism, MathVD is used to retrieve similar entities, and LLM is used to determine whether to merge with a candidate or add as a new entity. A wide range of experiments demonstrate the advanced performance and broad applicability of the AutoMathKG system, including superior reachability query results in MathVD compared to five baselines and robust mathematical reasoning capability in Math LLM.

arxiv情報

著者 Rong Bian,Yu Geng,Zijian Yang,Bing Cheng
発行日 2025-05-19 17:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database はコメントを受け付けていません

CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process

要約

最近の大きな推論モデルは、推論を学ぶことにより、大規模な言語モデルの推論能力を大幅に改善し、複雑なタスクの解決において有望なパフォーマンスを示しています。
LRMSは、回答とともに推論の軌跡を明示的に生成することにより、複雑な推論を必要とするタスクを解決します。
それにもかかわらず、そのような出力の答えの品質を判断することは容易ではありません。なぜなら、答えの正しさを考慮するだけでは十分ではなく、推論の軌跡の部分の健全性も重要であるからです。
論理的には、推論部分の健全性が悪い場合、答えが正しいとしても、派生した答えの信頼は低くなければなりません。
既存の方法は、推論の部分を考慮して全体的な出力の回答を共同で評価することを検討しましたが、推論と結論の回答との因果関係が適切に反映できないため、それらの能力はまだ満足のいくものではありません。
この論文では、古典的なメカニクスに触発されて、COTキネティクスのエネルギー方程式を確立するための新しいアプローチを紹介します。
具体的には、COT-Kinetics Energy方程式は、機械的フィールドで支配されている粒子速度論的ダイナミクスのように、LRM内部変圧器層によって調節されるトークン状態変換プロセスを定式化します。
私たちのCot-Kinetics Energyは、スカラースコアを割り当てて、推論段階の健全性を具体的に評価し、派生した答えが評価された推論にどれだけ自信を持っているかを伝えます。
そのため、LRMの全体的な出力品質は、粗い判断(たとえば、正しいまたは正しくない)ではなく、正確に測定できます。

要約(オリジナル)

Recent Large Reasoning Models significantly improve the reasoning ability of Large Language Models by learning to reason, exhibiting the promising performance in solving complex tasks. LRMs solve tasks that require complex reasoning by explicitly generating reasoning trajectories together with answers. Nevertheless, judging the quality of such an output answer is not easy because only considering the correctness of the answer is not enough and the soundness of the reasoning trajectory part matters as well. Logically, if the soundness of the reasoning part is poor, even if the answer is correct, the confidence of the derived answer should be low. Existing methods did consider jointly assessing the overall output answer by taking into account the reasoning part, however, their capability is still not satisfactory as the causal relationship of the reasoning to the concluded answer cannot properly reflected. In this paper, inspired by classical mechanics, we present a novel approach towards establishing a CoT-Kinetics energy equation. Specifically, our CoT-Kinetics energy equation formulates the token state transformation process, which is regulated by LRM internal transformer layers, as like a particle kinetics dynamics governed in a mechanical field. Our CoT-Kinetics energy assigns a scalar score to evaluate specifically the soundness of the reasoning phase, telling how confident the derived answer could be given the evaluated reasoning. As such, the LRM’s overall output quality can be accurately measured, rather than a coarse judgment (e.g., correct or incorrect) anymore.

arxiv情報

著者 Jinhe Bi,Danqi Yan,Yifan Wang,Wenke Huang,Haokun Chen,Guancheng Wan,Mang Ye,Xun Xiao,Hinrich Schuetze,Volker Tresp,Yunpu Ma
発行日 2025-05-19 17:44:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process はコメントを受け付けていません

AdaptThink: Reasoning Models Can Learn When to Think

要約

最近、大規模な推論モデルは、人間のような深い思考を採用することにより、さまざまなタスクで印象的なパフォーマンスを達成しました。
ただし、長い思考プロセスにより、buter症のオーバーヘッドが大幅に増加し、効率を重要なボトルネックにします。
この作業では、推論モデルが思考をスキップし、最終的なソリューションを直接生成するように促す無知なものが、パフォーマンスと効率の両方の点で比較的単純なタスクに適していることを最初に示します。
これにより動機付けられているため、問題の難易度に基づいて最適な思考モードを適応的に選択するように推論モデルを教えるための新しいRLアルゴリズムであるAdapthinkを提案します。
具体的には、AdaptHinkには2つのコアコンポーネントがあります。(1)全体的なパフォーマンスを維持しながら、モデルが無効を選択することを奨励する制約された最適化目標。
(2)ポリシーでのトレーニング中に思考と非難のサンプルのバランスをとる重要なサンプリング戦略により、コールドスタートを可能にし、モデルがトレーニングプロセス全体で両方の思考モードを探索して活用できるようにします。
私たちの実験は、Adapthinkが推論コストを大幅に削減し、パフォーマンスをさらに向上させることを示しています。
特に、3つの数学データセットで、AdaptHinkはDeepSeek-R1-Distill-Qwen-1.5Bの平均応答長を53%削減し、その精度を2.4%改善し、推論の質と効率のバランスを最適化するための適応型思考モード選択の約束を強調します。
私たちのコードとモデルは、https://github.com/thu-keg/adaptthinkで入手できます。

要約(オリジナル)

Recently, large reasoning models have achieved impressive performance on various tasks by employing human-like deep thinking. However, the lengthy thinking process substantially increases inference overhead, making efficiency a critical bottleneck. In this work, we first demonstrate that NoThinking, which prompts the reasoning model to skip thinking and directly generate the final solution, is a better choice for relatively simple tasks in terms of both performance and efficiency. Motivated by this, we propose AdaptThink, a novel RL algorithm to teach reasoning models to choose the optimal thinking mode adaptively based on problem difficulty. Specifically, AdaptThink features two core components: (1) a constrained optimization objective that encourages the model to choose NoThinking while maintaining the overall performance; (2) an importance sampling strategy that balances Thinking and NoThinking samples during on-policy training, thereby enabling cold start and allowing the model to explore and exploit both thinking modes throughout the training process. Our experiments indicate that AdaptThink significantly reduces the inference costs while further enhancing performance. Notably, on three math datasets, AdaptThink reduces the average response length of DeepSeek-R1-Distill-Qwen-1.5B by 53% and improves its accuracy by 2.4%, highlighting the promise of adaptive thinking-mode selection for optimizing the balance between reasoning quality and efficiency. Our codes and models are available at https://github.com/THU-KEG/AdaptThink.

arxiv情報

著者 Jiajie Zhang,Nianyi Lin,Lei Hou,Ling Feng,Juanzi Li
発行日 2025-05-19 17:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | AdaptThink: Reasoning Models Can Learn When to Think はコメントを受け付けていません

Overcoming Dependent Censoring in the Evaluation of Survival Models

要約

HarrellのConcordance Index(CI)やBrierスコアなどの従来の生存指標は、適切な検閲データを使用した有効な推論については、独立した検閲の仮定に依存しています。
ただし、検閲の確率が関心のあるイベントに関連しているいわゆる依存検閲が存在する場合、これらのメトリックは、基礎となるモデルエラーの偏った推定値を与えることができます。
この論文では、依存する検閲を説明できるArchimedean Copulasに基づいて、生存分析のための3つの新しい評価メトリックを紹介します。
また、メトリックの評価を促進するために、依存する検閲を伴う現実的で半合成データセットを生成するフレームワークを開発します。
合成および半合成データの実験は、提案されたメトリックが、従属検閲下での従来のメトリックよりもモデルエラーのより正確な推定値を提供できることを示しています。

要約(オリジナル)

Conventional survival metrics, such as Harrell’s concordance index (CI) and the Brier Score, rely on the independent censoring assumption for valid inference with right-censored data. However, in the presence of so-called dependent censoring, where the probability of censoring is related to the event of interest, these metrics can give biased estimates of the underlying model error. In this paper, we introduce three new evaluation metrics for survival analysis based on Archimedean copulas that can account for dependent censoring. We also develop a framework to generate realistic, semi-synthetic datasets with dependent censoring to facilitate the evaluation of the metrics. Our experiments in synthetic and semi-synthetic data demonstrate that the proposed metrics can provide more accurate estimates of the model error than conventional metrics under dependent censoring.

arxiv情報

著者 Christian Marius Lillelund,Shi-ang Qi,Russell Greiner
発行日 2025-05-19 17:50:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Overcoming Dependent Censoring in the Evaluation of Survival Models はコメントを受け付けていません

Learnware of Language Models: Specialized Small Language Models Can Do Big

要約

Learnwareパラダイムは、ユーザーがモデルの元の目的を超えて、タスクのよく訓練されたモデルのセットを再利用できるようにすることにより、機械学習に対する新しいアプローチを提供します。
モデルをゼロから構築する必要性を排除し、代わりに、新しいタスクに最適なモデルを特定して活用するために、仕様(モデルの機能の表現)に依存します。
Learnwareは多くのシナリオで効果的であることが証明されていますが、言語モデルへのアプリケーションはほとんど未開拓のままです。
同時に、大規模な言語モデル(LLMS)は驚くべき普遍的な質問を回避する能力を実証していますが、データの希少性、プライバシーの懸念、および高い計算コストにより、専門的なシナリオで課題に直面しているため、特定のドメインのためにますます専門化された小言語モデル(SLM)が訓練されています。
これらの制限に体系的に対処するために、学習ウェアパラダイムは、特殊なSLMを最大限に活用し、ユーザーがコラボレーションおよびプライバシー提示の方法でそれらを識別および再利用できるようにすることにより、有望なソリューションを提供します。
このペーパーでは、Learnwareパラダイムを言語モデルに適用する予備的な試みを提示します。
8Bパラメーターを備えた約100の学習給与の専門的なSLMで構成される学習ウェアシステムをシミュレートしました。これは、金融、ヘルスケア、数学ドメイン全体で微調整されています。
各学習ウェアには、SLMと仕様が含まれているため、ユーザーは独自のデータを公開せずに最も関連性の高いモデルを識別できます。
実験結果は有望なパフォーマンスを示します。タスク固有の推論ごとに適切な学習ウェアを1つ選択することにより、システムはすべてのベンチマークのベースSLMを上回ります。
LLMSと比較して、システムはQWEN1.5-110B、QWEN2.5-72B、およびLLAMA3.1-70B-Instructを金融ドメインタスクで少なくとも14%上回り、Flan-PALM-540B(オープンメディカルLLMリーダーボードで7位)を超えています。

要約(オリジナル)

The learnware paradigm offers a novel approach to machine learning by enabling users to reuse a set of well-trained models for tasks beyond the models’ original purposes. It eliminates the need to build models from scratch, instead relying on specifications (representations of a model’s capabilities) to identify and leverage the most suitable models for new tasks. While learnware has proven effective in many scenarios, its application to language models has remained largely unexplored. At the same time, large language models (LLMs) have demonstrated remarkable universal question-answering abilities, yet they face challenges in specialized scenarios due to data scarcity, privacy concerns, and high computational costs, thus more and more specialized small language models (SLMs) are being trained for specific domains. To address these limitations systematically, the learnware paradigm provides a promising solution by enabling maximum utilization of specialized SLMs, and allowing users to identify and reuse them in a collaborative and privacy-preserving manner. This paper presents a preliminary attempt to apply the learnware paradigm to language models. We simulated a learnware system comprising approximately 100 learnwares of specialized SLMs with 8B parameters, fine-tuned across finance, healthcare, and mathematics domains. Each learnware contains an SLM and a specification, which enables users to identify the most relevant models without exposing their own data. Experimental results demonstrate promising performance: by selecting one suitable learnware for each task-specific inference, the system outperforms the base SLMs on all benchmarks. Compared to LLMs, the system outperforms Qwen1.5-110B, Qwen2.5-72B, and Llama3.1-70B-Instruct by at least 14% in finance domain tasks, and surpasses Flan-PaLM-540B (ranked 7th on the Open Medical LLM Leaderboard) in medical domain tasks.

arxiv情報

著者 Zhi-Hao Tan,Zi-Chen Zhao,Hao-Yu Shi,Xin-Yu Zhang,Peng Tan,Yang Yu,Zhi-Hua Zhou
発行日 2025-05-19 17:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Learnware of Language Models: Specialized Small Language Models Can Do Big はコメントを受け付けていません

Beyond Single Pass, Looping Through Time: KG-IRAG with Iterative Knowledge Retrieval

要約

Graph Retrieval-Aygmented Generation(GraphRag)は、外部の知識を必要とするタスクでの大規模な言語モデル(LLMS)のパフォーマンスを向上させるのに非常に効果的であることが証明されています。
知識グラフ(KG)を活用することにより、GraphRagは複雑な推論タスクの情報検索を改善し、より正確で包括的な検索を提供し、QASに対するより正確な応答を生成します。
ただし、ほとんどのRAGメソッドは、特に情報抽出と推論の両方が必要な場合、マルチステップの推論に対処するのに不足しています。
この制限に対処するために、このホワイトペーパーでは、KGSを統合する新しいフレームワークである知識グラフベースの反復検索生成(KG-IRAG)を提示します。
反復検索手順を通じて、KG-IRAGは外部KGSから関連するデータを徐々に収集し、段階的な推論を可能にします。
提案されたアプローチは、気象条件や交通パターンに基づいた最適な移動時間の決定など、動的な時間データ抽出とともに推論が必要なシナリオに特に適しています。
実験結果は、KG-IRAGが、外部の知識を反復的な論理ベースの検索と効果的に統合することにより、複雑な推論タスクの精度を向上させることを示しています。
さらに、3つの新しいデータセット:Weatherqa-irish、Weatherqa-Sydney、およびTrafficQa-Tfnswが形成され、KG-Iragのパフォーマンスを評価し、従来のRAGアプリケーションを超えた可能性を示しています。

要約(オリジナル)

Graph Retrieval-Augmented Generation (GraphRAG) has proven highly effective in enhancing the performance of Large Language Models (LLMs) on tasks that require external knowledge. By leveraging Knowledge Graphs (KGs), GraphRAG improves information retrieval for complex reasoning tasks, providing more precise and comprehensive retrieval and generating more accurate responses to QAs. However, most RAG methods fall short in addressing multi-step reasoning, particularly when both information extraction and inference are necessary. To address this limitation, this paper presents Knowledge Graph-Based Iterative Retrieval-Augmented Generation (KG-IRAG), a novel framework that integrates KGs with iterative reasoning to improve LLMs’ ability to handle queries involving temporal and logical dependencies. Through iterative retrieval steps, KG-IRAG incrementally gathers relevant data from external KGs, enabling step-by-step reasoning. The proposed approach is particularly suited for scenarios where reasoning is required alongside dynamic temporal data extraction, such as determining optimal travel times based on weather conditions or traffic patterns. Experimental results show that KG-IRAG improves accuracy in complex reasoning tasks by effectively integrating external knowledge with iterative, logic-based retrieval. Additionally, three new datasets: weatherQA-Irish, weatherQA-Sydney, and trafficQA-TFNSW, are formed to evaluate KG-IRAG’s performance, demonstrating its potential beyond traditional RAG applications.

arxiv情報

著者 Ruiyi Yang,Hao Xue,Imran Razzak,Hakim Hacid,Flora D. Salim
発行日 2025-05-19 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Beyond Single Pass, Looping Through Time: KG-IRAG with Iterative Knowledge Retrieval はコメントを受け付けていません

Greed is Good: A Unifying Perspective on Guided Generation

要約

トレーニングフリーガイド生成は、エンドユーザーが流れ/拡散モデルの生成プロセスをさらに制御できるようにする広く使用された強力な手法です。
一般的に、勾配ベースのガイダンスのためにこの問題を解決するための2つの技術ファミリが登場しました。つまり、事後ガイダンス(つまり、ターゲット予測モデルを介して現在のサンプルをターゲット分布に投影することによるガイダンス)
この作業では、これらの2つの一見別の家族が、事後ガイダンスをエンドツーエンドのガイダンスの貪欲な戦略として検討することにより、実際に統一できることを示しています。
これら2つのファミリ間の理論的なつながりを探り、連続的な理想勾配と比較して、これら2つの手法の詳細な理論を提供します。
この分析により動機付けられ、これら2つのファミリ間で補間する方法を示し、ガイダンス勾配の計算と精度の間のトレードオフを可能にします。
次に、この作業をいくつかの逆画像の問題と財産誘導分子生成に関する検証します。

要約(オリジナル)

Training-free guided generation is a widely used and powerful technique that allows the end user to exert further control over the generative process of flow/diffusion models. Generally speaking, two families of techniques have emerged for solving this problem for gradient-based guidance: namely, posterior guidance (i.e., guidance via projecting the current sample to the target distribution via the target prediction model) and end-to-end guidance (i.e., guidance by performing backpropagation throughout the entire ODE solve). In this work, we show that these two seemingly separate families can actually be unified by looking at posterior guidance as a greedy strategy of end-to-end guidance. We explore the theoretical connections between these two families and provide an in-depth theoretical of these two techniques relative to the continuous ideal gradients. Motivated by this analysis we then show a method for interpolating between these two families enabling a trade-off between compute and accuracy of the guidance gradients. We then validate this work on several inverse image problems and property-guided molecular generation.

arxiv情報

著者 Zander W. Blasingame,Chen Liu
発行日 2025-05-19 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Greed is Good: A Unifying Perspective on Guided Generation はコメントを受け付けていません

Optimizing Anytime Reasoning via Budget Relative Policy Optimization

要約

スケーリングテスト時間計算は、大規模な言語モデル(LLM)の推論機能を強化するために重要です。
既存のアプローチでは、通常、強化学習(RL)を採用して、推論痕跡の最後に得られた検証可能な報酬を最大化します。
ただし、このような方法は、トレーニングと展開の両方の効率を妨げる大規模で固定されたトークン予算の下での最終パフォーマンスのみを最適化します。
この作業では、トークンの効率とさまざまなトークン予算の制約の下で推論の柔軟性を改善することを目的とする、いつでも推論パフォーマンスを最適化するための新しいフレームワーク、Anytimereasonerを提示します。
これを達成するために、完全な分布からサンプリングされたトークン予算内に収まるように完全な思考プロセスを切り捨て、モデルに検証のために切り捨てられた各思考の最適な答えを要約するように強制します。
これにより、検証可能な密な報酬が推論プロセスに導入され、RL最適化におけるより効果的なクレジット割り当てが促進されます。
次に、累積的な報酬を最大化するために、分離された方法で思考と概要のポリシーを最適化します。
さらに、思考ポリシーを強化する際の学習プロセスの堅牢性と効率を高めるために、新しい分散削減手法である予算相対ポリシー最適化(BRPO)を導入します。
数学的推論タスクにおける経験的結果は、私たちの方法が、さまざまな事前分布の下ですべての思考予算でGRPOを一貫して上回り、トレーニングとトークンの効率を高めることを示しています。

要約(オリジナル)

Scaling test-time compute is crucial for enhancing the reasoning capabilities of large language models (LLMs). Existing approaches typically employ reinforcement learning (RL) to maximize a verifiable reward obtained at the end of reasoning traces. However, such methods optimize only the final performance under a large and fixed token budget, which hinders efficiency in both training and deployment. In this work, we present a novel framework, AnytimeReasoner, to optimize anytime reasoning performance, which aims to improve token efficiency and the flexibility of reasoning under varying token budget constraints. To achieve this, we truncate the complete thinking process to fit within sampled token budgets from a prior distribution, compelling the model to summarize the optimal answer for each truncated thinking for verification. This introduces verifiable dense rewards into the reasoning process, facilitating more effective credit assignment in RL optimization. We then optimize the thinking and summary policies in a decoupled manner to maximize the cumulative reward. Additionally, we introduce a novel variance reduction technique, Budget Relative Policy Optimization (BRPO), to enhance the robustness and efficiency of the learning process when reinforcing the thinking policy. Empirical results in mathematical reasoning tasks demonstrate that our method consistently outperforms GRPO across all thinking budgets under various prior distributions, enhancing both training and token efficiency.

arxiv情報

著者 Penghui Qi,Zichen Liu,Tianyu Pang,Chao Du,Wee Sun Lee,Min Lin
発行日 2025-05-19 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Optimizing Anytime Reasoning via Budget Relative Policy Optimization はコメントを受け付けていません

Option-ID Based Elimination For Multiple Choice Questions

要約

複数選択の質問(MCQ)は、大規模な言語モデル(LLM)を評価するための一般的で重要なタスクです。
MCQに答える際に使用する一般的な戦略に基づいて、効果的な問題解決方法として排除のプロセス(POE)が提案されています。
既存のPOEメソッドには、通常、LLMが誤ったオプションまたはスコアオプションを直接識別し、[マスク]に低いスコアのオプションを置き換えます。
ただし、どちらの方法でも、アプリケーション性または最適ではないパフォーマンスに悩まされています。
これらの問題に対処するために、このペーパーでは、新しいオプションとIDベースのPOE($ \ Text {POE} _ {\ text {id}} $)を提案します。
$ \ text {poe} _ {\ text {id}} $は、LLMSトークンバイアスに対抗するための衰弱技術を批判的に組み込み、素朴なIDベースの除去よりも堅牢性を高めます。
2つの戦略が特徴です:$ \ text {poe} _ {\ text {id}}^{\ text {Log}} $。
最低ID確率。
4つの多様なデータセットで6つの異なるLLMを使用して広範な実験を行います。
結果は、$ \ text {poe} _ {\ text {id}} $、特に$ \ text {poe} _ {\ text {\ text}^{\ text {log}} $を、特にオプションのデータセットでゼロショットと少数のshot mcqsパフォーマンスを大幅に改善することを示しています。
私たちの分析は、$ \ text {poe} _ {\ text {id}}^{\ text {log}} $が正しいオプションを選択する際のLLMSの信頼度を高めることを示しており、オプション除去戦略は[マスク]の交換に依存するメソッドを上回ることを示しています。
さらに、固有の欠陥に起因する誤ったオプションを直接識別するLLMの制限を調査します。

要約(オリジナル)

Multiple choice questions (MCQs) are a popular and important task for evaluating large language models (LLMs). Based on common strategies people use when answering MCQs, the process of elimination (PoE) has been proposed as an effective problem-solving method. Existing PoE methods typically either have LLMs directly identify incorrect options or score options and replace lower-scoring ones with [MASK]. However, both methods suffer from inapplicability or suboptimal performance. To address these issues, this paper proposes a novel option-ID based PoE ($\text{PoE}_{\text{ID}}$). $\text{PoE}_{\text{ID}}$ critically incorporates a debiasing technique to counteract LLMs token bias, enhancing robustness over naive ID-based elimination. It features two strategies: $\text{PoE}_{\text{ID}}^{\text{log}}$, which eliminates options whose IDs have log probabilities below the average threshold, and $\text{PoE}_{\text{ID}}^{\text{seq}}$, which iteratively removes the option with the lowest ID probability. We conduct extensive experiments with 6 different LLMs on 4 diverse datasets. The results demonstrate that $\text{PoE}_{\text{ID}}$, especially $\text{PoE}_{\text{ID}}^{\text{log}}$, significantly improves zero-shot and few-shot MCQs performance, particularly in datasets with more options. Our analyses demonstrate that $\text{PoE}_{\text{ID}}^{\text{log}}$ enhances the LLMs’ confidence in selecting the correct option, and the option elimination strategy outperforms methods relying on [MASK] replacement. We further investigate the limitations of LLMs in directly identifying incorrect options, which stem from their inherent deficiencies.

arxiv情報

著者 Zhenhao Zhu,Bulou Liu,Qingyao Ai,Yiqun Liu
発行日 2025-05-19 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Option-ID Based Elimination For Multiple Choice Questions はコメントを受け付けていません