How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?

要約

トークン化、正規化、停止単語の除去、および幹/lemmatationを含む古典的なテキストの前処理パイプラインは、構文オントロジーマッチング(OM)のために多くのシステムで実装されています。
ただし、テキストの前処理に標準化の欠如は、マッピング結果に多様性を生み出します。
このペーパーでは、49個の異なるアライメントを備えた8オントロジーアライメント評価イニシアチブ(OAEI)トラックの構文OMに対するテキスト前処理パイプラインの効果を調査します。
フェーズ1テキストの前処理(トークン化と正規化)は、フェーズ2テキストの前処理(停止単語の削除と幹/板化)よりも効果的であることがわかります。
フェーズ2テキストの前処理によって引き起こされる不要な誤ったマッピングを修復するために、誤ったマッピングを引き起こす一般的な単語を見つけるために事後チェックを使用する新しいコンテキストベースのパイプライン修理アプローチを提案します。
これらの単語は予約済みの単語セットに保存され、テキストの前処理に適用されます。
実験結果は、私たちのアプローチが一致する正確性と全体的なマッチングパフォーマンスを改善することを示しています。
次に、OMの最新の大手言語モデル(LLMS)との古典的なテキストの前処理パイプラインのより広範な統合を検討します。
(1)LLMプロンプトによって生成された不安定な真マッピングの傾向を避けるために、LLMSに呼び出す機能を介してテキスト前処理パイプラインを注入することをお勧めします。
または(2)LLMを使用して、テキストの前処理パイプラインによって生成された存在しない非直感に反する誤ったマッピングを修復します。

要約(オリジナル)

The classic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many systems for syntactic ontology matching (OM). However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper we investigate the effect of the text preprocessing pipeline on syntactic OM in 8 Ontology Alignment Evaluation Initiative (OAEI) tracks with 49 distinct alignments. We find that Phase 1 text preprocessing (Tokenisation and Normalisation) is more effective than Phase 2 text preprocessing (Stop Words Removal and Stemming/Lemmatisation). To repair the unwanted false mappings caused by Phase 2 text preprocessing, we propose a novel context-based pipeline repair approach that employs a post hoc check to find common words that cause false mappings. These words are stored in a reserved word set and applied in text preprocessing. The experimental results show that our approach improves the matching correctness and the overall matching performance. We then consider the broader integration of the classic text preprocessing pipeline with modern large language models (LLMs) for OM. We recommend that (1) the text preprocessing pipeline be injected via function calling into LLMs to avoid the tendency towards unstable true mappings produced by LLM prompting; or (2) LLMs be used to repair non-existent and counter-intuitive false mappings generated by the text preprocessing pipeline.

arxiv情報

著者 Zhangcheng Qiang,Kerry Taylor,Weiqing Wang
発行日 2025-03-31 16:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching? はコメントを受け付けていません

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning

要約

閉ループ最適化を通じて推奨システムを備えた大規模な言語モデル(LLMS)をブリッジする一般的な強化学習フレームワークであるRec-R1を提案します。
プロンプトと監視付きの微調整(SFT)とは異なり、REC-R1は、GPT-4Oなどの独自モデルからの合成SFTデータに依存することなく、固定ブラックボックス推奨モデルからのフィードバックを使用してLLM生成を直接最適化します。
これにより、データの蒸留に必要なかなりのコストと努力が回避されます。
REC-R1の有効性を検証するために、製品検索と順次推奨という2つの代表的なタスクで評価します。
実験結果は、REC-R1が一貫してプロンプトベースの方法とSFTベースの方法を上回るだけでなく、BM25などの単純なレトリバーで使用する場合でも、強力な識別ベースラインよりも大きな利益を達成することを示しています。
さらに、REC-R1は、SFTとは異なり、LLMの汎用機能を保持します。
これらの発見は、壊滅的な忘却なしに継続的なタスク固有の適応の有望な基盤としてRec-R1を示唆しています。

要約(オリジナル)

We propose Rec-R1, a general reinforcement learning framework that bridges large language models (LLMs) with recommendation systems through closed-loop optimization. Unlike prompting and supervised fine-tuning (SFT), Rec-R1 directly optimizes LLM generation using feedback from a fixed black-box recommendation model, without relying on synthetic SFT data from proprietary models such as GPT-4o. This avoids the substantial cost and effort required for data distillation. To verify the effectiveness of Rec-R1, we evaluate it on two representative tasks: product search and sequential recommendation. Experimental results demonstrate that Rec-R1 not only consistently outperforms prompting- and SFT-based methods, but also achieves significant gains over strong discriminative baselines, even when used with simple retrievers such as BM25. Moreover, Rec-R1 preserves the general-purpose capabilities of the LLM, unlike SFT, which often impairs instruction-following and reasoning. These findings suggest Rec-R1 as a promising foundation for continual task-specific adaptation without catastrophic forgetting.

arxiv情報

著者 Jiacheng Lin,Tian Wang,Kun Qian
発行日 2025-03-31 16:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning はコメントを受け付けていません

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

要約

スケーラビリティ、シンプルさ、アクセシビリティに焦点を当てた大規模な推論指向RLトレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介します。
大規模な実験を通じて、KL($ \ lambda = 1 $、$ \ gamma = 1 $)とKLの正規化なしに、GAE($ \ lambda = 1 $、$ \ gamma = 1 $)を備えたバニラPPOが、deepseek-r1-zeroで観察されたフェノメノンと同様に、応答長とベンチマークパフォーマンスの両方を拡大するのに十分であることを実証します。
DeepSeek-R1-Zero-Qwen-32Bと同じベースモデルを使用して、実装はAIME2024、Math500、およびGPQAダイヤモンドベンチマークで優れたパフォーマンスを達成しながら、DeepSeek-R1-Zero Pipelineと比較して、トレーニングステップの10分の1しか必要とします。
オープンソースのスピリットでは、さまざまなサイズにわたってソースコード、パラメーター設定、トレーニングデータ、モデルの重みをリリースします。

要約(オリジナル)

We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE ($\lambda=1$, $\gamma=1$) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency — requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.

arxiv情報

著者 Jingcheng Hu,Yinmin Zhang,Qi Han,Daxin Jiang,Xiangyu Zhang,Heung-Yeung Shum
発行日 2025-03-31 16:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model はコメントを受け付けていません

Is analogy enough to draw novel adjective-noun inferences?

要約

最近の研究(Ross et al。、2025、2024)は、それぞれ人間とLLMの新しい形容詞名詞の組み合わせに一般化する能力は、それぞれがそれぞれがフレーズの意味を決定し、推論を導き出すための構成メカニズムにアクセスできることを示していると主張しています。
代わりに、これらの推論を、組成を必要とせずに、既知の推論と類似して導き出すことができるかどうかを調べます。
(1)語彙項目に対する類似性を使用して類推のモデルを構築し、(2)類推によって人間の参加者に推論を求めることにより、これを調査します。
この戦略は、Ross et alのデータセットの大部分に適していることがわかりました。
(2025)、人間とLLMの両方が収束的な推論を導き出すが、類推によってうまく処理されていない新しい組み合わせがあります。
したがって、これらの場合に一般化するために人間とLLMが使用するメカニズムは、類推に完全に減らすことができず、おそらく構成を含むと結論付けています。

要約(オリジナル)

Recent work (Ross et al., 2025, 2024) has argued that the ability of humans and LLMs respectively to generalize to novel adjective-noun combinations shows that they each have access to a compositional mechanism to determine the phrase’s meaning and derive inferences. We study whether these inferences can instead be derived by analogy to known inferences, without need for composition. We investigate this by (1) building a model of analogical reasoning using similarity over lexical items, and (2) asking human participants to reason by analogy. While we find that this strategy works well for a large proportion of the dataset of Ross et al. (2025), there are novel combinations for which both humans and LLMs derive convergent inferences but which are not well handled by analogy. We thus conclude that the mechanism humans and LLMs use to generalize in these cases cannot be fully reduced to analogy, and likely involves composition.

arxiv情報

著者 Hayley Ross,Kathryn Davidson,Najoung Kim
発行日 2025-03-31 16:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Is analogy enough to draw novel adjective-noun inferences? はコメントを受け付けていません

Query and Conquer: Execution-Guided SQL Generation

要約

テキスト間タスクの精度を大幅に改善する複雑な出力を生成するための新しいアプローチを提案します。
私たちのメソッドは、実行結果を活用して、複数の候補から最も意味的に一貫したクエリを選択し、小規模で費用対効果の高いモデルがO1、O3-MINI、DeepSeek R1などの計算集中的な推論方法を上回り、推論コストを30回削減できるようにします。
既存のモデルと簡単に統合し、最先端のSQL生成に実用的でスケーラブルな経路を提供します。

要約(オリジナル)

We propose a novel approach for generating complex outputs that significantly improves accuracy in text-to-SQL tasks. Our method leverages execution results to select the most semantically consistent query from multiple candidates, enabling smaller, cost-effective models to surpass computationally intensive reasoning methods such as o1, o3-mini, and DeepSeek R1 while reducing inference cost by as much as 30 times. It integrates effortlessly with existing models, offering a practical and scalable pathway to state-of-the-art SQL generation.

arxiv情報

著者 Łukasz Borchmann,Marek Wydmuch
発行日 2025-03-31 17:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Query and Conquer: Execution-Guided SQL Generation はコメントを受け付けていません

AI in radiological imaging of soft-tissue and bone tumours: a systematic review evaluating against CLAIM and FUTURE-AI guidelines

要約

軟部組織および骨腫瘍(STBT)はまれで、臨床行動と治療アプローチがさまざまな診断的に挑戦的な病変です。
この系統的レビューは、これらの腫瘍の診断と予後のための放射線イメージングを使用した人工知能(AI)メソッドの概要を提供し、臨床翻訳における課題を強調し、医療イメージングのAIのチェックリストとの研究の整合と、臨床翻訳の信頼できるAI翻訳を展開するための信頼できるAIのための将来の国際的なコンセンサスガイドラインとの調整を評価します。
このレビューでは、17/07/2024以前に公開された論文を含む、いくつかの書誌データベースの文献を取り上げました。
診断または予測の一次STBTを診断または予測するための放射線科ベースのAIに焦点を当てた査読付きジャーナルのオリジナル研究が含まれていました。
除外基準は、動物、死体、または実験室の研究、および英語以外の論文でした。
要約は、適格性のために3人の独立したレビュアーのうち2人によって上映されました。
適格な論文は、3人の独立したレビュアーの1人によってガイドラインに対して評価されました。
検索では、15,015の要約が特定され、そこから325の記事が評価されました。
ほとんどの研究は、53のうち28.9 $ 7.5のスコア28.9 $ 7.5のスコアを平均して請求して適度に実行されましたが、将来の場合は不十分であり、STBTのイメージング-AIツールの平均5.1 $ 2.1の$ 2.1を概念実証段階に残り、改善のための重要なスペースを示しています。
AI開発者による将来の取り組みは、設計(例えば、満たされていない臨床的ニーズ、意図された臨床環境、およびAIが臨床ワークフローに統合される方法を定義する)、開発(例:以前の研究の構築、説明、例えば、バイアスの評価と対処、AIの評価、ベストプラクティスに対する評価、およびデータの再現性と利用可能性(データとデータの利用可能性)をデータの作成)に焦点を当てる必要があります。
これらの推奨に従うことで、AIメソッドの臨床翻訳が改善される可能性があります。

要約(オリジナル)

Soft-tissue and bone tumours (STBT) are rare, diagnostically challenging lesions with variable clinical behaviours and treatment approaches. This systematic review provides an overview of Artificial Intelligence (AI) methods using radiological imaging for diagnosis and prognosis of these tumours, highlighting challenges in clinical translation, and evaluating study alignment with the Checklist for AI in Medical Imaging (CLAIM) and the FUTURE-AI international consensus guidelines for trustworthy and deployable AI to promote the clinical translation of AI methods. The review covered literature from several bibliographic databases, including papers published before 17/07/2024. Original research in peer-reviewed journals focused on radiology-based AI for diagnosing or prognosing primary STBT was included. Exclusion criteria were animal, cadaveric, or laboratory studies, and non-English papers. Abstracts were screened by two of three independent reviewers for eligibility. Eligible papers were assessed against guidelines by one of three independent reviewers. The search identified 15,015 abstracts, from which 325 articles were included for evaluation. Most studies performed moderately on CLAIM, averaging a score of 28.9$\pm$7.5 out of 53, but poorly on FUTURE-AI, averaging 5.1$\pm$2.1 out of 30. Imaging-AI tools for STBT remain at the proof-of-concept stage, indicating significant room for improvement. Future efforts by AI developers should focus on design (e.g. define unmet clinical need, intended clinical setting and how AI would be integrated in clinical workflow), development (e.g. build on previous work, explainability), evaluation (e.g. evaluating and addressing biases, evaluating AI against best practices), and data reproducibility and availability (making documented code and data publicly available). Following these recommendations could improve clinical translation of AI methods.

arxiv情報

著者 Douwe J. Spaanderman,Matthew Marzetti,Xinyi Wan,Andrew F. Scarsbrook,Philip Robinson,Edwin H. G. Oei,Jacob J. Visser,Robert Hemke,Kirsten van Langevelde,David F. Hanff,Geert J. L. H. van Leenders,Cornelis Verhoef,Dirk J. Gruühagen,Wiro J. Niessen,Stefan Klein,Martijn P. A. Starmans
発行日 2025-03-31 13:58:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AI in radiological imaging of soft-tissue and bone tumours: a systematic review evaluating against CLAIM and FUTURE-AI guidelines はコメントを受け付けていません

Grounding Agent Reasoning in Image Schemas: A Neurosymbolic Approach to Embodied Cognition

要約

具体化されたAIの進歩にもかかわらず、エージェントの推論システムは、人間が自然に環境を理解し、相互作用するために自然に使用する基本的な概念構造を捉えるのに苦労しています。
これに対処するために、イメージスキーマの正式な特性評価を活用することにより、ブリッジが具体化される新しいフレームワークを提案します。これは、人間の認知を構造化する感覚運動体験の繰り返しパターンとして定義されます。
LLMSをカスタマイズして、これらの感覚運動パターンに基づいて自然言語の説明を正式な表現に変換することにより、基本的な概念構造におけるエージェントの理解を根拠とする神経協力系を作成することができます。
このようなアプローチは、効率と解釈の両方を向上させ、共有された具体化された理解を通じて、より直感的な人間エージェント相互作用を可能にすると主張します。

要約(オリジナル)

Despite advances in embodied AI, agent reasoning systems still struggle to capture the fundamental conceptual structures that humans naturally use to understand and interact with their environment. To address this, we propose a novel framework that bridges embodied cognition theory and agent systems by leveraging a formal characterization of image schemas, which are defined as recurring patterns of sensorimotor experience that structure human cognition. By customizing LLMs to translate natural language descriptions into formal representations based on these sensorimotor patterns, we will be able to create a neurosymbolic system that grounds the agent’s understanding in fundamental conceptual structures. We argue that such an approach enhances both efficiency and interpretability while enabling more intuitive human-agent interactions through shared embodied understanding.

arxiv情報

著者 François Olivier,Zied Bouraoui
発行日 2025-03-31 14:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Grounding Agent Reasoning in Image Schemas: A Neurosymbolic Approach to Embodied Cognition はコメントを受け付けていません

Graph Neural Network-Based Predictive Modeling for Robotic Plaster Printing

要約

この作業は、粒子ベースの製造プロセスから得られる表面を予測するために、グラフニューラルネットワーク(GNN)モデリングアプローチを提案します。
後者は、壁にあるセメント質の石膏のスプレーベースの印刷で構成され、ロボットアームを使用して促進されます。
予測は、位置、速度、方向、印刷プロセスパラメーターなどのロボットアーム軌道機能を使用して計算されます。
壁ドメインとエンドエフェクターの粒子表現に基づいた提案されたアプローチは、グラフベースのソリューションの採用を可能にします。
GNNモデルは、エンコーダプロセッサデコーダーアーキテクチャで構成され、臨床検査からのデータを使用してトレーニングされ、ハイパーパラメーターはベイジアンスキームによって最適化されます。
このモデルの目的は、印刷プロセスのシミュレーターとして機能し、最終的にロボットアームの軌跡の生成と印刷パラメーターの最適化に使用されることです。
提案されたモデルのパフォーマンスは、目に見えないグラウンドトゥルースデータに対する予測エラーの観点から評価されます。これは、既存のベンチマークモデルのパフォーマンスと比較して、さまざまなシナリオでの一般性を示しています。
結果は、ベンチマークモデルよりも大幅な改善を示しており、特にパフォーマンスが向上し、予測ステップ全体のエラースケーリングが強化されています。

要約(オリジナル)

This work proposes a Graph Neural Network (GNN) modeling approach to predict the resulting surface from a particle based fabrication process. The latter consists of spray-based printing of cementitious plaster on a wall and is facilitated with the use of a robotic arm. The predictions are computed using the robotic arm trajectory features, such as position, velocity and direction, as well as the printing process parameters. The proposed approach, based on a particle representation of the wall domain and the end effector, allows for the adoption of a graph-based solution. The GNN model consists of an encoder-processor-decoder architecture and is trained using data from laboratory tests, while the hyperparameters are optimized by means of a Bayesian scheme. The aim of this model is to act as a simulator of the printing process, and ultimately used for the generation of the robotic arm trajectory and the optimization of the printing parameters, towards the materialization of an autonomous plastering process. The performance of the proposed model is assessed in terms of the prediction error against unseen ground truth data, which shows its generality in varied scenarios, as well as in comparison with the performance of an existing benchmark model. The results demonstrate a significant improvement over the benchmark model, with notably better performance and enhanced error scaling across prediction steps.

arxiv情報

著者 Diego Machain Rivera,Selen Ercan Jenny,Ping Hsun Tsai,Ena Lloret-Fritschi,Luis Salamanca,Fernando Perez-Cruz,Konstantinos E. Tatsis
発行日 2025-03-31 14:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, cs.RO | Graph Neural Network-Based Predictive Modeling for Robotic Plaster Printing はコメントを受け付けていません

Backdoor Graph Condensation

要約

グラフ凝縮は最近、グラフニューラルネットワーク(GNNS)のトレーニング効率を改善するための一般的な手法として浮上しました。
この小さな合成グラフで訓練されたGNNが大きなグラフで訓練されたGNNに匹敵するパフォーマンスを実現できるように、大きなグラフを小さなグラフに凝縮します。
ただし、既存のグラフ凝縮研究は、主にグラフサイズとGNNSのパフォーマンス(モデルユーティリティ)の間の最高のトレードオフに焦点を当てていますが、グラフ凝縮のセキュリティ問題を見落としています。
このギャップを埋めるために、凝縮グラフで訓練されたGNNに対するバックドア攻撃を最初に探索します。
BGCと呼ばれるグラフ凝縮に対する効果的なバックドア攻撃を導入します。
この攻撃の目的は、(1)トリガーインジェクションにもかかわらず、凝縮されたグラフの品質を保存し、(2)凝縮プロセスを通じてトリガーの有効性を確保し、高い攻撃の成功率を達成することを目指しています。
具体的には、BGCは凝縮中にトリガーを一貫して更新し、中毒の代表的なノードをターゲットにします。
広範な実験は、私たちの攻撃の有効性を示しています。
BGCは、すべての場合に高い攻撃成功率(1.0に近い)と優れたモデルユーティリティを達成します。
さらに、複数の防御方法に対する結果は、彼らの防御下でのBGCの回復力を示しています。
最後に、攻撃のパフォーマンスに影響を与えるキーハイパーパラメーターを分析します。
私たちのコードは、https://github.com/jiahaowugit/bgcで入手できます。

要約(オリジナル)

Graph condensation has recently emerged as a prevalent technique to improve the training efficiency for graph neural networks (GNNs). It condenses a large graph into a small one such that a GNN trained on this small synthetic graph can achieve comparable performance to a GNN trained on the large graph. However, while existing graph condensation studies mainly focus on the best trade-off between graph size and the GNNs’ performance (model utility), they overlook the security issues of graph condensation. To bridge this gap, we first explore backdoor attack against the GNNs trained on the condensed graphs. We introduce an effective backdoor attack against graph condensation, termed BGC. This attack aims to (1) preserve the condensed graph quality despite trigger injection, and (2) ensure trigger efficacy through the condensation process, achieving a high attack success rate. Specifically, BGC consistently updates triggers during condensation and targets representative nodes for poisoning. Extensive experiments demonstrate the effectiveness of our attack. BGC achieves a high attack success rate (close to 1.0) and good model utility in all cases. Furthermore, the results against multiple defense methods demonstrate BGC’s resilience under their defenses. Finally, we analyze the key hyperparameters that influence the attack performance. Our code is available at: https://github.com/JiahaoWuGit/BGC.

arxiv情報

著者 Jiahao Wu,Ning Lu,Zeiyu Dai,Kun Wang,Wenqi Fan,Shengcai Liu,Qing Li,Ke Tang
発行日 2025-03-31 14:19:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Backdoor Graph Condensation はコメントを受け付けていません

PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models

要約

フロンティアモデルの既存のベンチマークは、多くの場合、専門の「PHDレベル」の知識をテストします。
対照的に、一般的な知識のみを必要とするNPRサンデーパズルチャレンジに基づいて、594の問題を伴うベンチマークを提示します。
私たちのベンチマークは、人間とモデルの両方にとって挑戦的です。
ただし、正しいソリューションは簡単に検証でき、モデルの間違いは簡単に見つけることができます。
LLMは社会でより広く展開されているため、深いドメインの専門知識を必要とせずに人間が理解できるフロンティアモデルのベンチマークを開発することが有用であると考えています。
私たちの作業は、既存のベンチマークでは明らかではない能力のギャップを明らかにしています。OpenaiO1は、専門知識をテストするベンチマークでテストされたときに他のモデルと同等になっているにもかかわらず、ベンチマークの他の推論モデルを大幅に上回ります。
さらに、推論出力の分析により、新しい種類の障害が明らかになります。
たとえば、Deepseek R1は、間違っていることがわかっていることを回答する前に、しばしば「私はあきらめ」と認めます。
また、R1は出力では著しく「不確実」になる可能性があり、まれな場合は「思考を終える」ことはできません。これは、コンテキストウィンドウの制限に達する前にテクニックが「ラップ」する必要があることを示唆しています。
また、推論の有効性を定量化して、より多くの推論がベンチマークの精度を向上させる可能性が低いポイントを特定します。

要約(オリジナル)

Existing benchmarks for frontier models often test specialized, ‘PhD-level’ knowledge that is difficult for non-experts to grasp. In contrast, we present a benchmark with 594 problems based on the NPR Sunday Puzzle Challenge that requires only general knowledge. Our benchmark is challenging for both humans and models; however correct solutions are easy to verify, and models’ mistakes are easy to spot. As LLMs are more widely deployed in society, we believe it is useful to develop benchmarks for frontier models that humans can understand without the need for deep domain expertise. Our work reveals capability gaps that are not evident in existing benchmarks: OpenAI o1 significantly outperforms other reasoning models on our benchmark, despite being on par with other models when tested on benchmarks that test specialized knowledge. Furthermore, our analysis of reasoning outputs uncovers new kinds of failures. DeepSeek R1, for instance, often concedes with ‘I give up’ before providing an answer that it knows is wrong. R1 can also be remarkably ‘uncertain’ in its output and in rare cases, it does not ‘finish thinking,’ which suggests the need for techniques to ‘wrap up’ before the context window limit is reached. We also quantify the effectiveness of reasoning longer to identify the point beyond which more reasoning is unlikely to improve accuracy on our benchmark.

arxiv情報

著者 Zixuan Wu,Francesca Lucchetti,Aleksander Boruch-Gruszecki,Jingmiao Zhao,Carolyn Jane Anderson,Joydeep Biswas,Federico Cassano,Molly Q Feldman,Arjun Guha
発行日 2025-03-31 14:21:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models はコメントを受け付けていません