Evaluating machine learning models for predicting pesticides toxicity to honey bees

要約

小分子は、生物医学、環境、および農薬のドメインで重要な役割を果たし、それぞれに異なる物理化学的要件と成功基準を備えています。
生物医学的研究は、広範なデータセットと確立されたベンチマークから利益を得ていますが、特に種固有の毒性に関しては、農薬データが依然として不足しています。
この研究は、生態学的に重要な花粉媒介者であるミツバチ(\ textit {apis mellifera})に対する実験的に検証された化学毒性の最も包括的なデータセットであるアピストックスに焦点を当てています。
分子指紋、グラフカーネル、グラフニューラルネットワーク、および前提条件モデルなど、多様な機械学習アプローチを使用してApistoxを評価します。
Moleculenetベンチマークからの薬用データセットとの比較分析は、Apistoxが異なる化学空間を表していることを明らかにしています。
Apistoxなどの非医学的データセットのパフォーマンス劣化は、生物医学データのみで訓練されている現在の最先端のアルゴリズムの一般化が限られていることを示しています。
私たちの研究は、より多様なデータセットと農薬の領域に向けられたターゲットモデル開発の必要性を強調しています。

要約(オリジナル)

Small molecules play a critical role in the biomedical, environmental, and agrochemical domains, each with distinct physicochemical requirements and success criteria. Although biomedical research benefits from extensive datasets and established benchmarks, agrochemical data remain scarce, particularly with respect to species-specific toxicity. This work focuses on ApisTox, the most comprehensive dataset of experimentally validated chemical toxicity to the honey bee (\textit{Apis mellifera}), an ecologically vital pollinator. We evaluate ApisTox using a diverse suite of machine learning approaches, including molecular fingerprints, graph kernels, and graph neural networks, as well as pretrained models. Comparative analysis with medicinal datasets from the MoleculeNet benchmark reveals that ApisTox represents a distinct chemical space. Performance degradation on non-medicinal datasets, such as ApisTox, demonstrates their limited generalizability of current state-of-the-art algorithms trained solely on biomedical data. Our study highlights the need for more diverse datasets and for targeted model development geared toward the agrochemical domain.

arxiv情報

著者 Jakub Adamczyk,Jakub Poziemski,Pawel Siedlecki
発行日 2025-03-31 16:51:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating machine learning models for predicting pesticides toxicity to honey bees はコメントを受け付けていません

A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG

要約

この研究では、大規模な言語モデル(LLMS)を使用したメンタルヘルステキストの分析のための3つのアプローチの体系的な比較を示しています:迅速なエンジニアリング、検索拡張生成(RAG)、および微調整。
Llama 3を使用して、2つのデータセットにわたる感情分類とメンタルヘルスの検出タスクに関するこれらのアプローチを評価します。
微調整は最高の精度(感情分類で91%、メンタルヘルスの状態で80%)を達成しますが、かなりの計算リソースと大規模なトレーニングセットが必要です。一方、迅速なエンジニアリングとRAGは、パフォーマンスが適度なパフォーマンス(40〜68%の精度)でより柔軟な展開を提供します。
私たちの調査結果は、精度、計算要件、展開の柔軟性のトレードオフを強調し、メンタルヘルスアプリケーションにLLMベースのソリューションを実装するための実用的な洞察を提供します。

要約(オリジナル)

This study presents a systematic comparison of three approaches for the analysis of mental health text using large language models (LLMs): prompt engineering, retrieval augmented generation (RAG), and fine-tuning. Using LLaMA 3, we evaluate these approaches on emotion classification and mental health condition detection tasks across two datasets. Fine-tuning achieves the highest accuracy (91% for emotion classification, 80% for mental health conditions) but requires substantial computational resources and large training sets, while prompt engineering and RAG offer more flexible deployment with moderate performance (40-68% accuracy). Our findings provide practical insights for implementing LLM-based solutions in mental health applications, highlighting the trade-offs between accuracy, computational requirements, and deployment flexibility.

arxiv情報

著者 Arshia Kermani,Veronica Perez-Rosas,Vangelis Metsis
発行日 2025-03-31 16:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG はコメントを受け付けていません

BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models

要約

この研究では、大規模な言語モデル(LLMS)におけるバイアス、倫理、公平性、および事実性を評価するための新しいフレームワークであるBeatsを紹介します。
Beatsフレームワークに基づいて、29の異なるメトリックにわたってパフォーマンスを測定するLLMのバイアスベンチマークを紹介します。
これらのメトリックは、倫理的推論、グループの公平性、および事実関連の誤った情報リスクの測定だけでなく、人口統計、認知、社会のバイアスなど、幅広い特性に及びます。
これらのメトリックにより、LLMが生成した応答が、体系的な不平等を強化または拡大する社会的偏見を永続させる可能性のある程度の定量的評価を可能にします。
このベンチマークで高いスコアを達成するには、LLMが応答に非常に公平な動作を示す必要があり、責任あるAI評価の厳密な基準となっています。
実験結果の実験結果は、業界をリードするモデルによって生成された出力の37.65%に何らかの形のバイアスが含まれており、重要な意思決定システムでこれらのモデルを使用するという大きなリスクを強調していることを示しています。
Beatsフレームワークとベンチマークは、ベンチマークLLMSのスケーラブルで統計的に厳密な方法論を提供し、バイアスを促進する要因を診断し、緩和戦略を開発します。
Beatsフレームワークを使用すると、私たちの目標は、より社会的に責任があり、倫理的に整合したAIモデルの開発を支援することです。

要約(オリジナル)

In this research, we introduce BEATS, a novel framework for evaluating Bias, Ethics, Fairness, and Factuality in Large Language Models (LLMs). Building upon the BEATS framework, we present a bias benchmark for LLMs that measure performance across 29 distinct metrics. These metrics span a broad range of characteristics, including demographic, cognitive, and social biases, as well as measures of ethical reasoning, group fairness, and factuality related misinformation risk. These metrics enable a quantitative assessment of the extent to which LLM generated responses may perpetuate societal prejudices that reinforce or expand systemic inequities. To achieve a high score on this benchmark a LLM must show very equitable behavior in their responses, making it a rigorous standard for responsible AI evaluation. Empirical results based on data from our experiment show that, 37.65\% of outputs generated by industry leading models contained some form of bias, highlighting a substantial risk of using these models in critical decision making systems. BEATS framework and benchmark offer a scalable and statistically rigorous methodology to benchmark LLMs, diagnose factors driving biases, and develop mitigation strategies. With the BEATS framework, our goal is to help the development of more socially responsible and ethically aligned AI models.

arxiv情報

著者 Alok Abhishek,Lisa Erickson,Tushar Bandopadhyay
発行日 2025-03-31 16:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T50, cs.AI, cs.CL, I.2.0 | BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models はコメントを受け付けていません

Pro-Routing: Proactive Routing of Autonomous Multi-Capacity Robots for Pickup-and-Delivery Tasks

要約

マルチロボット設定を検討します。ここでは、固定最大待機時間で空間的に分散したピックアップと配信要求をサービスしなければならない多能力の自律ロボットのフリートがあります。
リクエストは、事前にスケジュールされるか、リアルタイムでシステムに入ることができます。
この設定では、ルーティングポリシーの安定性は、ポリシーのコストが時間とともに均一に制限されるかと定義されます。
以前のほとんどの作業は、理論的に安定性を維持するためにオフラインで問題を解決するか、安定性に関する理論的保証を犠牲にしてリクエストを動的に到着することを検討します。
この論文では、学習ルーティングポリシーの安定性を証明しながら、リアルタイムの需要に適応する新しいプロアクティブロールアウトベースのルーティングフレームワークを提案することにより、このギャップを埋めることを目指しています。
私たちは、建設による安定性を保証する十分に大きな艦隊を取得するフリートサイジングアルゴリズムを提案することにより、当社の方法の証明可能な安定性保証を導き出します。
理論的な結果を検証するために、ハーバード大学のイブニングバンシステムの実際のライドリクエストに関するケーススタディを検討します。
また、現在展開されているより小さなフリートサイズを使用して、フレームワークのパフォーマンスを評価します。
この小さなセットアップでは、現在展開されているルーティングアルゴリズム、貪欲なヒューリスティック、およびモンテカルロツリー検索ベースのアルゴリズムと比較します。
私たちの経験的結果は、理論的結果に見られる十分に大きな艦隊サイズを使用すると、フレームワークが安定性を維持することを示しています。
現在展開されている艦隊サイズが小さいため、メソッドサービスは、乗客の待機時間の中央値を33%削減しながら、最も近いベースラインよりも6%多くのリクエストをサービスします。

要約(オリジナル)

We consider a multi-robot setting, where we have a fleet of multi-capacity autonomous robots that must service spatially distributed pickup-and-delivery requests with fixed maximum wait times. Requests can be either scheduled ahead of time or they can enter the system in real-time. In this setting, stability for a routing policy is defined as the cost of the policy being uniformly bounded over time. Most previous work either solve the problem offline to theoretically maintain stability or they consider dynamically arriving requests at the expense of the theoretical guarantees on stability. In this paper, we aim to bridge this gap by proposing a novel proactive rollout-based routing framework that adapts to real-time demand while still provably maintaining the stability of the learned routing policy. We derive provable stability guarantees for our method by proposing a fleet sizing algorithm that obtains a sufficiently large fleet that ensures stability by construction. To validate our theoretical results, we consider a case study on real ride requests for Harvard’s evening Van System. We also evaluate the performance of our framework using the currently deployed smaller fleet size. In this smaller setup, we compare against the currently deployed routing algorithm, greedy heuristics, and Monte-Carlo-Tree-Search-based algorithms. Our empirical results show that our framework maintains stability when we use the sufficiently large fleet size found in our theoretical results. For the smaller currently deployed fleet size, our method services 6% more requests than the closest baseline while reducing median passenger wait times by 33%.

arxiv情報

著者 Daniel Garces,Stephanie Gil
発行日 2025-03-31 17:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Pro-Routing: Proactive Routing of Autonomous Multi-Capacity Robots for Pickup-and-Delivery Tasks はコメントを受け付けていません

Contextual Preference Collaborative Measure Framework Based on Belief System

要約

優先測定測定プロセスへの人間の介入を減らすために、この記事では、更新された信念システムに基づいた優先コラボレーション測定フレームワークを提案します。これはまた、最新の信念システムに基づいて優先協力測定フレームワークを提案します。これはまた、好みの測定アルゴリズムアルゴリズムの精度と効率を改善することもできます。まず、ルールの距離とルールの平均的な距離とルールセットの平均内部距離と、ルールセットの間に関係を明確に指定するためにルールセットの平均距離が提案されています。
ルールセットの平均内部距離、PRAアルゴリズムに基づくアルゴリズムが提案されています。これは、最小情報損失率で発見プロセスを完了することを目的としています。Furthermore、共通の信念の概念は信念体系を更新するために提案されています。
2種類(一般化またはパーソナライズされた)、そして最終的には、信念の学位と偏差の程度に依存してTop-Kの興味深いルールをフィルタリングします。
信念度としての相関係数。実験では、提案されたアルゴリズムは2つの最先端のアルゴリズムと比較され、結果はほとんどの側面でIMCOSとIMCOVが他の2つよりも優れていることを示しています。

要約(オリジナル)

To reduce the human intervention in the preference measure process,this article proposes a preference collaborative measure framework based on an updated belief system,which is also capable of improving the accuracy and efficiency of preferen-ce measure algorithms.Firstly,the distance of rules and the average internal distance of rulesets are proposed for specifying the relationship between the rules.For discovering the most representative preferences that are common in all users,namely common preference,a algorithm based on average internal distance of ruleset,PRA algorithm,is proposed,which aims to finish the discoveryprocess with minimum information loss rate.Furthermore,the concept of Common belief is proposed to update the belief system,and the common preferences are the evidences of updated belief system.Then,under the belief system,the proposed belief degree and deviation degree are used to determine whether a rule confirms the belief system or not and classify the preference rules into two kinds(generalized or personalized),and eventually filters out Top-K interesting rules relying on belief degree and deviation degree.Based on above,a scalable interestingness calculation framework that can apply various formulas is proposed for accurately calculating interestingness in different conditions.At last,IMCos algorithm and IMCov algorithm are proposed as exemplars to verify the accuracy and efficiency of the framework by using weighted cosine similarity and correlation coefficients as belief degree.In experiments,the proposed algorithms are compared to two state-of-the-art algorithms and the results show that IMCos and IMCov outperform than the other two in most aspects.

arxiv情報

著者 Hang Yu,Wei Wei,Zheng Tan,Jing-lei Liu
発行日 2025-03-31 17:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Contextual Preference Collaborative Measure Framework Based on Belief System はコメントを受け付けていません

SQuat: Subspace-orthogonal KV Cache Quantization

要約

キー価値(KV)キャッシュは、以前に生成されたトークンからKVテンソルを保存することにより、LLMSデコードを加速します。
メモリ使用量の増加のコストで冗長計算を削減します。
このオーバーヘッドを軽減するために、既存のアプローチはKVテンソルを低ビット表現に圧縮します。
ただし、量子化エラーは、より多くのトークンが生成されると蓄積する可能性があり、潜在的に望ましくない出力が生成されます。
この論文では、Squat(サブスペース整中KVキャッシュの量子化)を紹介します。
最初に、クエリテンソルに及ぶ部分空間を構築して、最も重要なタスク関連情報をキャプチャします。
主要なテンソル量子化中、(de)量子化されたキーと元のキーの違いがこの部分空間に直交するままであることを強制し、注意メカニズムの出力に対する量子化エラーの影響を最小限に抑えます。
Squatには、モデルの微調整、オフライン学習のための追加のキャリブレーションデータセットは必要ありません。また、私たちが開発する理論的フレームワークに基づいています。
数値実験を通じて、私たちの方法がピークメモリを2.17から2.82に減らし、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを達成することを示します。

要約(オリジナル)

The key-value (KV) cache accelerates LLMs decoding by storing KV tensors from previously generated tokens. It reduces redundant computation at the cost of increased memory usage. To mitigate this overhead, existing approaches compress KV tensors into lower-bit representations; however, quantization errors can accumulate as more tokens are generated, potentially resulting in undesired outputs. In this paper, we introduce SQuat (Subspace-orthogonal KV cache quantization). It first constructs a subspace spanned by query tensors to capture the most critical task-related information. During key tensor quantization, it enforces that the difference between the (de)quantized and original keys remains orthogonal to this subspace, minimizing the impact of quantization errors on the attention mechanism’s outputs. SQuat requires no model fine-tuning, no additional calibration dataset for offline learning, and is grounded in a theoretical framework we develop. Through numerical experiments, we show that our method reduces peak memory by 2.17 to 2.82, improves throughput by 2.45 to 3.60, and achieves more favorable benchmark scores than existing KV cache quantization algorithms.

arxiv情報

著者 Hao Wang,Ligong Han,Kai Xu,Akash Srivastava
発行日 2025-03-31 17:37:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT | SQuat: Subspace-orthogonal KV Cache Quantization はコメントを受け付けていません

Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation

要約

大規模な現実世界のロボットデータセットは、ジェネラリストのロボットモデルをトレーニングする大きな可能性を秘めていますが、実世界の人間のデータ収集のスケーリングは時間がかかり、リソース集約的です。
シミュレーションは、特にロボット動作データセットのスケーラブルな作成を可能にする生成AIおよび自動化されたデータ生成ツールの最近の進歩により、大規模なデータを補足することに大きな可能性があります。
ただし、シミュレーションのみでポリシーをトレーニングし、現実の世界に転送するには、現実のギャップを埋めるためにかなりの人間の努力が必要になることがよくあります。
説得力のある代替手段は、シミュレーションと実際のデータセットの混合に関するポリシーを共同訓練することです。
予備研究により、この戦略は、限られた量の現実世界データでトレーニングされた1つよりもポリシーのパフォーマンスを大幅に改善することを示しています。
それにもかかわらず、コミュニティには、シムアンドリアルの共同トレーニングと、実際のロボット学習のためのシミュレーションデータの利点を享受するために必要なことの体系的な理解がありません。
この作業は、シミュレーションデータを利用してビジョンベースのロボット操作タスクを解決するためのシンプルで効果的なレシピを提示します。
このレシピは、さまざまなシミュレーションおよび実際のデータセットで共同トレーニング戦略を検証する包括的な実験から導き出します。
ロボットアームとヒューマノイドの2つのドメインを使用して、シミュレーションデータがシミュレーションと実際のデータの顕著な違いがある場合でも、シミュレーションデータが実際のタスクのパフォーマンスを平均38%強化できることを実証します。
ビデオと追加の結果は、https://co-training.github.io/にあります。

要約(オリジナル)

Large real-world robot datasets hold great potential to train generalist robot models, but scaling real-world human data collection is time-consuming and resource-intensive. Simulation has great potential in supplementing large-scale data, especially with recent advances in generative AI and automated data generation tools that enable scalable creation of robot behavior datasets. However, training a policy solely in simulation and transferring it to the real world often demands substantial human effort to bridge the reality gap. A compelling alternative is to co-train the policy on a mixture of simulation and real-world datasets. Preliminary studies have recently shown this strategy to substantially improve the performance of a policy over one trained on a limited amount of real-world data. Nonetheless, the community lacks a systematic understanding of sim-and-real co-training and what it takes to reap the benefits of simulation data for real-robot learning. This work presents a simple yet effective recipe for utilizing simulation data to solve vision-based robotic manipulation tasks. We derive this recipe from comprehensive experiments that validate the co-training strategy on various simulation and real-world datasets. Using two domains–a robot arm and a humanoid–across diverse tasks, we demonstrate that simulation data can enhance real-world task performance by an average of 38%, even with notable differences between the simulation and real-world data. Videos and additional results can be found at https://co-training.github.io/

arxiv情報

著者 Abhiram Maddukuri,Zhenyu Jiang,Lawrence Yunliang Chen,Soroush Nasiriany,Yuqi Xie,Yu Fang,Wenqi Huang,Zu Wang,Zhenjia Xu,Nikita Chernyadev,Scott Reed,Ken Goldberg,Ajay Mandlekar,Linxi Fan,Yuke Zhu
発行日 2025-03-31 17:39:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Sim-and-Real Co-Training: A Simple Recipe for Vision-Based Robotic Manipulation はコメントを受け付けていません

Which LIME should I trust? Concepts, Challenges, and Solutions

要約

ニューラルネットワークが必須システムで支配的になるにつれて、説明可能な人工知能(XAI)は、不透明モデルの信頼を促進し、潜在的な不正行為を検出する上で重要な役割を果たします。
LIME(ローカル解釈可能なモデルに依存しない説明)は、最も顕著なモデルに依存しないアプローチの1つであり、特定のインスタンスの周りのブラックボックスモデルの挙動を近似することにより説明を生成します。
その人気にもかかわらず、ライムは忠実さ、安定性、およびドメイン固有の問題に対する適用性に関連する課題に直面しています。
これらの問題に対処するために多数の適応と強化が提案されていますが、増加する開発の数は、ライム関連の研究をナビゲートするための努力を複雑にしている可能性があります。
私たちの知る限り、これは、ライムの基本的な概念と既知の制限を包括的に探求し、収集する最初の調査です。
さまざまな機能強化を分類して比較し、中間の手順と重要な問題に基づいて構造化された分類法を提供します。
私たちの分析は、石灰の進歩の全体的な概要を提供し、将来の研究を導き、実務家が適切なアプローチを特定するのを支援します。
さらに、継続的に更新されたインタラクティブなWebサイト(https://patrick-knab.github.io/which-lime-to-trust/)を提供し、調査の簡潔でアクセス可能な概要を提供します。

要約(オリジナル)

As neural networks become dominant in essential systems, Explainable Artificial Intelligence (XAI) plays a crucial role in fostering trust and detecting potential misbehavior of opaque models. LIME (Local Interpretable Model-agnostic Explanations) is among the most prominent model-agnostic approaches, generating explanations by approximating the behavior of black-box models around specific instances. Despite its popularity, LIME faces challenges related to fidelity, stability, and applicability to domain-specific problems. Numerous adaptations and enhancements have been proposed to address these issues, but the growing number of developments can be overwhelming, complicating efforts to navigate LIME-related research. To the best of our knowledge, this is the first survey to comprehensively explore and collect LIME’s foundational concepts and known limitations. We categorize and compare its various enhancements, offering a structured taxonomy based on intermediate steps and key issues. Our analysis provides a holistic overview of advancements in LIME, guiding future research and helping practitioners identify suitable approaches. Additionally, we provide a continuously updated interactive website (https://patrick-knab.github.io/which-lime-to-trust/), offering a concise and accessible overview of the survey.

arxiv情報

著者 Patrick Knab,Sascha Marton,Udo Schlegel,Christian Bartelt
発行日 2025-03-31 17:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Which LIME should I trust? Concepts, Challenges, and Solutions はコメントを受け付けていません

Effectively Controlling Reasoning Models through Thinking Intervention

要約

推論強化された大手言語モデル(LLMS)は、最終回答を生成する前に中間推論ステップを明示的に生成し、モデルが複雑な問題解決に優れているのを助けます。
この論文では、この新たな世代フレームワークがモデルの動作をより細かく制御するためのユニークな機会を提供することを実証します。
特定の思考トークンを戦略的に挿入または改訂することにより、LLMの内部推論プロセスを明示的に導くように設計された新しいパラダイムであるThinking Interventionを提案します。
IFEVAL、SEPの命令階層、XSTESTおよびSORRY-BENCHでの安全アライメントをフォローする命令など、複数のタスクで包括的な評価を実施します。
我々の結果は、思考介入がベースラインのプロンプトアプローチを大幅に上回ることを示しています。アプローチの促進、命令フォローのシナリオで最大6.7%の精度の向上、命令階層に関する推論の15.4%の改善、およびオープンソースディープシークR1モデルを使用した不安定なプロンプトの拒否率の40.0%の増加が得られます。
全体として、私たちの仕事は、LLMSを推論するための有望な新しい研究手段を開きます。

要約(オリジナル)

Reasoning-enhanced large language models (LLMs) explicitly generate intermediate reasoning steps prior to generating final answers, helping the model excel in complex problem-solving. In this paper, we demonstrate that this emerging generation framework offers a unique opportunity for more fine-grained control over model behavior. We propose Thinking Intervention, a novel paradigm designed to explicitly guide the internal reasoning processes of LLMs by strategically inserting or revising specific thinking tokens. We conduct comprehensive evaluations across multiple tasks, including instruction following on IFEval, instruction hierarchy on SEP, and safety alignment on XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention significantly outperforms baseline prompting approaches, achieving up to 6.7% accuracy gains in instruction-following scenarios, 15.4% improvements in reasoning about instruction hierarchies, and a 40.0% increase in refusal rates for unsafe prompts using open-source DeepSeek R1 models. Overall, our work opens a promising new research avenue for controlling reasoning LLMs.

arxiv情報

著者 Tong Wu,Chong Xiang,Jiachen T. Wang,Prateek Mittal
発行日 2025-03-31 17:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Effectively Controlling Reasoning Models through Thinking Intervention はコメントを受け付けていません

Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩により、複雑な推論タスクを実行する能力が大幅に向上し、高速かつ直感的な思考(システム1)から遅くて深い推論(システム2)に移行しています。
システム2の推論はタスクの精度を向上させますが、そのゆっくりと思考の性質と非効率的または不必要な推論行動により、多くの場合、かなりの計算コストが発生します。
対照的に、システム1の推論は計算上効率的ですが、最適ではないパフォーマンスにつながります。
その結果、パフォーマンス(利益)と計算コスト(予算)のトレードオフのバランスをとることが重要です。これは、推論経済の概念を生み出します。
この調査では、LLMのトレーニング後およびテスト時間の推論段階の両方で、推論経済の包括的な分析を提供し、i)推論の非効率性、ii)異なる推論パターンの行動分析、およびiii)推論経済を達成するための潜在的なソリューションを提供します。
実用的な洞察を提供し、オープンな課題を強調することにより、LLMSの推論経済を改善するための戦略に光を当てることを目指しており、それにより、この進化する分野で研究を進めるための貴重なリソースとして機能します。
また、この急速に進化する分野の開発を継続的に追跡するための公開リポジトリも提供しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have significantly enhanced their ability to perform complex reasoning tasks, transitioning from fast and intuitive thinking (System 1) to slow and deep reasoning (System 2). While System 2 reasoning improves task accuracy, it often incurs substantial computational costs due to its slow thinking nature and inefficient or unnecessary reasoning behaviors. In contrast, System 1 reasoning is computationally efficient but leads to suboptimal performance. Consequently, it is critical to balance the trade-off between performance (benefits) and computational costs (budgets), giving rise to the concept of reasoning economy. In this survey, we provide a comprehensive analysis of reasoning economy in both the post-training and test-time inference stages of LLMs, encompassing i) the cause of reasoning inefficiency, ii) behavior analysis of different reasoning patterns, and iii) potential solutions to achieve reasoning economy. By offering actionable insights and highlighting open challenges, we aim to shed light on strategies for improving the reasoning economy of LLMs, thereby serving as a valuable resource for advancing research in this evolving area. We also provide a public repository to continually track developments in this fast-evolving field.

arxiv情報

著者 Rui Wang,Hongru Wang,Boyang Xue,Jianhui Pang,Shudong Liu,Yi Chen,Jiahao Qiu,Derek Fai Wong,Heng Ji,Kam-Fai Wong
発行日 2025-03-31 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models はコメントを受け付けていません