Graph RAG for Legal Norms: A Hierarchical and Temporal Approach

要約

この記事では、定義された階層構造、内部および外部参照の広範なネットワーク、および複数の時間バージョンが特徴の、法的規範の分析と理解のために特別に設計されたグラフ検索拡張生成(グラフrag)の適応を提案します。
構造化された知識グラフと文脈的に濃縮されたテキストセグメントを組み合わせることにより、グラフRAGは、固有の複雑さと膨大な量の法的データに対処するための有望なソリューションを提供します。
階層構造と一時的な進化の知識グラフへの統合は、包括的なテキスト単位の概念とともに、法的知識のより豊かで相互に関連した表現の構築を促進します。
グラフRAGと法的規範データセットへの適用の詳細な分析を通じて、この記事は、法律に適用される人工知能の分野を前進させ、法的研究、立法分析、意思決定支援におけるより効果的なシステムの機会を生み出すことを目的としています。

要約(オリジナル)

This article proposes an adaptation of Graph Retrieval Augmented Generation (Graph RAG) specifically designed for the analysis and comprehension of legal norms, which are characterized by their predefined hierarchical structure, extensive network of internal and external references and multiple temporal versions. By combining structured knowledge graphs with contextually enriched text segments, Graph RAG offers a promising solution to address the inherent complexity and vast volume of legal data. The integration of hierarchical structure and temporal evolution into knowledge graphs – along with the concept of comprehensive Text Units – facilitates the construction of richer, interconnected representations of legal knowledge. Through a detailed analysis of Graph RAG and its application to legal norm datasets, this article aims to advance the field of Artificial Intelligence applied to Law, creating opportunities for more effective systems in legal research, legislative analysis, and decision support.

arxiv情報

著者 Hudson de Martim
発行日 2025-05-13 17:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Graph RAG for Legal Norms: A Hierarchical and Temporal Approach はコメントを受け付けていません

HealthBench: Evaluating Large Language Models Towards Improved Human Health

要約

ヘルスケアにおける大規模な言語モデルのパフォーマンスと安全性を測定するオープンソースのベンチマークであるHealthbenchを紹介します。
Healthbenchは、モデルと個々のユーザーまたはヘルスケアの専門家との間の5,000のマルチターン会話で構成されています。
応答は、262人の医師によって作成された会話固有のルーブリックを使用して評価されます。
以前の複数選択または短いアンドワーベンチマークとは異なり、Healthbenchは、いくつかの健康状況(緊急事態、臨床データの変換、世界的な健康の変換)および行動の寸法(例:正確性、指導、コミュニケーション)にまたがる48,562のユニークなルーブリック基準を通じて、現実的で自由回答形式の評価を可能にします。
過去2年間のヘルスベンチのパフォーマンスは、安定した初期進行を反映しています(GPT-3.5ターボの16%をGPT-4Oの32%と比較)、より迅速な最近の改善(O3スコア60%)。
小規模なモデルは特に改善されています。GPT-4.1ナノはGPT-4Oを上回り、25倍安いです。
さらに、2つのヘルスベンチのバリエーションをリリースします。これには、医師のコンセンサスを介して検証されたモデル行動の34の特に重要な側面と、現在のトップスコアが32%であるHealthbench Hardを含むHealthbenchコンセンサスがリリースされます。
ヘルスベンチが、人間の健康に役立つモデル開発とアプリケーションに向けて進歩することを願っています。

要約(オリジナル)

We present HealthBench, an open-source benchmark measuring the performance and safety of large language models in healthcare. HealthBench consists of 5,000 multi-turn conversations between a model and an individual user or healthcare professional. Responses are evaluated using conversation-specific rubrics created by 262 physicians. Unlike previous multiple-choice or short-answer benchmarks, HealthBench enables realistic, open-ended evaluation through 48,562 unique rubric criteria spanning several health contexts (e.g., emergencies, transforming clinical data, global health) and behavioral dimensions (e.g., accuracy, instruction following, communication). HealthBench performance over the last two years reflects steady initial progress (compare GPT-3.5 Turbo’s 16% to GPT-4o’s 32%) and more rapid recent improvements (o3 scores 60%). Smaller models have especially improved: GPT-4.1 nano outperforms GPT-4o and is 25 times cheaper. We additionally release two HealthBench variations: HealthBench Consensus, which includes 34 particularly important dimensions of model behavior validated via physician consensus, and HealthBench Hard, where the current top score is 32%. We hope that HealthBench grounds progress towards model development and applications that benefit human health.

arxiv情報

著者 Rahul K. Arora,Jason Wei,Rebecca Soskin Hicks,Preston Bowman,Joaquin Quiñonero-Candela,Foivos Tsimpourlas,Michael Sharman,Meghan Shah,Andrea Vallone,Alex Beutel,Johannes Heidecke,Karan Singhal
発行日 2025-05-13 17:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HealthBench: Evaluating Large Language Models Towards Improved Human Health はコメントを受け付けていません

ExEBench: Benchmarking Foundation Models on Extreme Earth Events

要約

私たちの惑星は、ますます頻繁な極端な出来事に直面しており、人間の生活と生態系に大きなリスクをもたらしています。
機械学習(ML)の最近の進歩、特に大規模なデータセットで訓練された基礎モデル(FMS)、機能の抽出に優れており、災害管理の可能性を示しています。
それにもかかわらず、これらのモデルはしばしばトレーニングデータからバイアスを継承し、極端な価値に対するパフォーマンスに挑戦します。
極端なイベントのコンテキストでFMの信頼性を調査するために、\ textbf {exe}ベンチ(\ textbf {ex} treme \ textbf {e} arthベンチマーク)を紹介します。
データセットには、さまざまな空間、時間、およびスペクトルの特性を持つ、グローバルなカバレッジ、さまざまなデータボリューム、多様なデータソースがあります。
FMSの実際の影響を広げるために、極端なイベントの検出、監視、予測において、運用上のニーズと密接に整合する複数の挑戦的なMLタスクを含めます。
Exebenchの目的は、(1)多様でインパクトのあるタスクとドメイン全体のFMの一般化可能性を評価することを目的としています。(2)災害管理に利益をもたらす新しいML方法の開発を促進し、(3)極端なイベントの相互作用とカスケード効果を分析するためのプラットフォームを提供して、特に極端なイベントの理解を促進するためのプラットフォームを提供します。
データセットとコードは、public https://github.com/zhaoshan2/earthextreme-benchです。

要約(オリジナル)

Our planet is facing increasingly frequent extreme events, which pose major risks to human lives and ecosystems. Recent advances in machine learning (ML), especially with foundation models (FMs) trained on extensive datasets, excel in extracting features and show promise in disaster management. Nevertheless, these models often inherit biases from training data, challenging their performance over extreme values. To explore the reliability of FM in the context of extreme events, we introduce \textbf{ExE}Bench (\textbf{Ex}treme \textbf{E}arth Benchmark), a collection of seven extreme event categories across floods, wildfires, storms, tropical cyclones, extreme precipitation, heatwaves, and cold waves. The dataset features global coverage, varying data volumes, and diverse data sources with different spatial, temporal, and spectral characteristics. To broaden the real-world impact of FMs, we include multiple challenging ML tasks that are closely aligned with operational needs in extreme events detection, monitoring, and forecasting. ExEBench aims to (1) assess FM generalizability across diverse, high-impact tasks and domains, (2) promote the development of novel ML methods that benefit disaster management, and (3) offer a platform for analyzing the interactions and cascading effects of extreme events to advance our understanding of Earth system, especially under the climate change expected in the decades to come. The dataset and code are public https://github.com/zhaoshan2/EarthExtreme-Bench.

arxiv情報

著者 Shan Zhao,Zhitong Xiong,Jie Zhao,Xiao Xiang Zhu
発行日 2025-05-13 13:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | ExEBench: Benchmarking Foundation Models on Extreme Earth Events はコメントを受け付けていません

The Truth Becomes Clearer Through Debate! Multi-Agent Systems with Large Language Models Unmask Fake News

要約

今日のデジタル環境では、ソーシャルネットワークを介した偽のニュースの急速な伝播は、重要な社会的課題をもたらします。
ほとんどの既存の検出方法は、低い解釈可能性と限られた一般化機能に悩まされる従来の分類モデルを採用しているか、大規模な言語モデル(LLM)の特定のプロンプトを作成して説明と結果を直接作成し、LLMSの推論能力を完全に活用できません。
「Truthは議論を通してより明確になる」という言葉に触発されて、私たちの研究は、偽のニュース検出の解釈可能性と有効性を高めるために、Truedebate(TED)という名前のLLMSを備えた新しいマルチエージェントシステムを導入しています。
テッドは、正式な議論の設定に触発された厳格な議論プロセスを採用しています。
私たちのアプローチの中心には、DebateFlowエージェントとInsightflowエージェントの2つの革新的なコンポーネントがあります。
DebateFlowのエージェントは、エージェントを2つのチームに編成し、1つがサポートし、もう1つはニュースの真実に挑戦します。
これらのエージェントは、オープニングステートメント、反対尋問、反論、および閉会の声明に従事し、人間の談話分析に似た厳格な議論プロセスをシミュレートし、ニュースコンテンツの徹底的な評価を可能にします。
同時に、Insightflowエージェントは、合成剤と分析剤の2つの特殊なサブエージェントで構成されています。
合成剤は議論を要約し、包括的な視点を提供し、一貫した包括的な評価を確保します。
ロール認識エンコーダと議論グラフを含む分析エージェントは、役割の埋め込みを統合し、注意メカニズムを使用して議論の役割と議論の間の相互作用をモデル化し、最終的な判断を提供します。

要約(オリジナル)

In today’s digital environment, the rapid propagation of fake news via social networks poses significant social challenges. Most existing detection methods either employ traditional classification models, which suffer from low interpretability and limited generalization capabilities, or craft specific prompts for large language models (LLMs) to produce explanations and results directly, failing to leverage LLMs’ reasoning abilities fully. Inspired by the saying that ‘truth becomes clearer through debate,’ our study introduces a novel multi-agent system with LLMs named TruEDebate (TED) to enhance the interpretability and effectiveness of fake news detection. TED employs a rigorous debate process inspired by formal debate settings. Central to our approach are two innovative components: the DebateFlow Agents and the InsightFlow Agents. The DebateFlow Agents organize agents into two teams, where one supports and the other challenges the truth of the news. These agents engage in opening statements, cross-examination, rebuttal, and closing statements, simulating a rigorous debate process akin to human discourse analysis, allowing for a thorough evaluation of news content. Concurrently, the InsightFlow Agents consist of two specialized sub-agents: the Synthesis Agent and the Analysis Agent. The Synthesis Agent summarizes the debates and provides an overarching viewpoint, ensuring a coherent and comprehensive evaluation. The Analysis Agent, which includes a role-aware encoder and a debate graph, integrates role embeddings and models the interactions between debate roles and arguments using an attention mechanism, providing the final judgment.

arxiv情報

著者 Yuhan Liu,Yuxuan Liu,Xiaoqing Zhang,Xiuying Chen,Rui Yan
発行日 2025-05-13 13:03:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SI | The Truth Becomes Clearer Through Debate! Multi-Agent Systems with Large Language Models Unmask Fake News はコメントを受け付けていません

TS-SNN: Temporal Shift Module for Spiking Neural Networks

要約

スパイクニューラルネットワーク(SNN)は、生物学的妥当性とエネルギー効率についてますます認識されており、神経型コンピューティングアプリケーションの人工ニューラルネットワーク(ANN)の強力な代替品として配置します。
SNNは、スパイクの正確なタイミングを活用することにより本質的に一時的な情報を処理しますが、時間的特徴の利用と低エネルギー消費のバランスをとることは課題です。
この作業では、シンプルで効果的なシフト操作を介して過去、現在、および将来のスパイク機能を統合するための新しい時間的シフト(TS)モジュールを組み込んだニューラルネットワーク(TS-SNN)をスパイクするための時間シフトモジュールを導入します。
残留併用方法は、シフトされた機能と元の機能を統合することにより、情報の損失を防ぎます。
TSモジュールは軽量で、追加の学習可能なパラメーターを1つだけ必要とし、最小限の追加計算コストで既存のアーキテクチャにシームレスに統合できます。
TS-SNNは、低エネルギー消費を維持しながら、CIFAR-10(96.72 \%)、CIFAR-100(80.28 \%)、イメージネット(70.61 \%)などのベンチマークで最先端のパフォーマンスを達成します。
この作業は、効率的で正確なSNNアーキテクチャの開発における重要な前進を示しています。

要約(オリジナル)

Spiking Neural Networks (SNNs) are increasingly recognized for their biological plausibility and energy efficiency, positioning them as strong alternatives to Artificial Neural Networks (ANNs) in neuromorphic computing applications. SNNs inherently process temporal information by leveraging the precise timing of spikes, but balancing temporal feature utilization with low energy consumption remains a challenge. In this work, we introduce Temporal Shift module for Spiking Neural Networks (TS-SNN), which incorporates a novel Temporal Shift (TS) module to integrate past, present, and future spike features within a single timestep via a simple yet effective shift operation. A residual combination method prevents information loss by integrating shifted and original features. The TS module is lightweight, requiring only one additional learnable parameter, and can be seamlessly integrated into existing architectures with minimal additional computational cost. TS-SNN achieves state-of-the-art performance on benchmarks like CIFAR-10 (96.72\%), CIFAR-100 (80.28\%), and ImageNet (70.61\%) with fewer timesteps, while maintaining low energy consumption. This work marks a significant step forward in developing efficient and accurate SNN architectures.

arxiv情報

著者 Kairong Yu,Tianqing Zhang,Qi Xu,Gang Pan,Hongwei Wang
発行日 2025-05-13 13:09:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | TS-SNN: Temporal Shift Module for Spiking Neural Networks はコメントを受け付けていません

TradExpert: Revolutionizing Trading with Mixture of Expert LLMs

要約

金融領域に人工知能(AI)の統合は、特に大規模な言語モデル(LLM)を使用して、定量的取引のための新しい道を開きました。
ただし、多様なデータソースからの洞察を効果的に統合し、構造化されたデータと非構造化データの両方を統合するという課題は持続します。
このホワイトペーパーでは、4つの専門LLMを使用して専門家(MOE)アプローチの組み合わせを採用する新しいフレームワークであるTradeExpertを紹介します。それぞれが、ニュース記事、市場データ、アルファファクター、基本データなどの異なる財務データのソースを分析します。
これらの専門家LLMの洞察は、最終的な予測または決定を下すために、一般的な専門家LLMによってさらに統合されています。
特定のプロンプトを使用すると、TradeExpertは、それぞれ在庫の移動予測と定量的在庫取引の予測モードとランキングモードの間に切り替えることができます。
既存のベンチマークに加えて、TradeExpertの有効性を包括的に評価するために、大規模な金融データセットもリリースします。
実験結果は、すべての取引シナリオでTradeExpertの優れたパフォーマンスを示しています。

要約(オリジナル)

The integration of Artificial Intelligence (AI) in the financial domain has opened new avenues for quantitative trading, particularly through the use of Large Language Models (LLMs). However, the challenge of effectively synthesizing insights from diverse data sources and integrating both structured and unstructured data persists. This paper presents TradeExpert, a novel framework that employs a mix of experts (MoE) approach, using four specialized LLMs, each analyzing distinct sources of financial data, including news articles, market data, alpha factors, and fundamental data. The insights of these expert LLMs are further synthesized by a General Expert LLM to make a final prediction or decision. With specific prompts, TradeExpert can be switched between the prediction mode and the ranking mode for stock movement prediction and quantitative stock trading, respectively. In addition to existing benchmarks, we also release a large-scale financial dataset to comprehensively evaluate TradeExpert’s effectiveness. Our experimental results demonstrate TradeExpert’s superior performance across all trading scenarios.

arxiv情報

著者 Qianggang Ding,Haochen Shi,Jiadong Guo,Bang Liu
発行日 2025-05-13 13:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-fin.ST | TradExpert: Revolutionizing Trading with Mixture of Expert LLMs はコメントを受け付けていません

Guiding LLM-based Smart Contract Generation with Finite State Machine

要約

スマートコントラクトは、幅広いアプリケーションシナリオを備えたブロックチェーンテクノロジーに基づく一種の自己実行コードですが、従来の生成方法は、手動コーディングとエキスパート監査に依存しており、これは高いしきい値と効率が低いです。
大規模な言語モデル(LLM)はプログラミングタスクに大きな可能性を示していますが、スマートコントラクトの生成W.R.T.
有効性とセキュリティ。
これらの問題を解決するために、有限状態マシン(FSM)とLLMSに基づいたスマートコントラクト生成フレームワークであるFSM-SCGを提案します。これにより、ユーザー要件を抽象化してFSMを抽象化し、LLMSを生成してスマートコントラクトを生成し、コンピレーションのフィードバックとセキュリティチェックのフィードバックでコードを最適化することにより、生成コードの品質を大幅に向上させます。
実験結果は、FSM-SCGがスマートコントラクトの生成の品質を大幅に向上させることを示しています。
最良のベースラインと比較して、FSM-SCGは、生成されたスマートコントラクトコードのコンパイル成功率を最大48%改善し、平均脆弱性リスクスコアを約68%削減します。

要約(オリジナル)

Smart contract is a kind of self-executing code based on blockchain technology with a wide range of application scenarios, but the traditional generation method relies on manual coding and expert auditing, which has a high threshold and low efficiency. Although Large Language Models (LLMs) show great potential in programming tasks, they still face challenges in smart contract generation w.r.t. effectiveness and security. To solve these problems, we propose FSM-SCG, a smart contract generation framework based on finite state machine (FSM) and LLMs, which significantly improves the quality of the generated code by abstracting user requirements to generate FSM, guiding LLMs to generate smart contracts, and iteratively optimizing the code with the feedback of compilation and security checks. The experimental results show that FSM-SCG significantly improves the quality of smart contract generation. Compared to the best baseline, FSM-SCG improves the compilation success rate of generated smart contract code by at most 48%, and reduces the average vulnerability risk score by approximately 68%.

arxiv情報

著者 Hao Luo,Yuhao Lin,Xiao Yan,Xintong Hu,Yuxiang Wang,Qiming Zeng,Hao Wang,Jiawei Jiang
発行日 2025-05-13 13:13:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Guiding LLM-based Smart Contract Generation with Finite State Machine はコメントを受け付けていません

Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩は、単一ターンタスクを処理する能力に革命をもたらしましたが、実際のアプリケーションでは洗練されたマルチターン相互作用が必要です。
この調査では、LLMでのマルチターン相互作用の評価と強化における最近の進歩の包括的なレビューを提供します。
数学やコーディングなどの多様なドメインでの指導から、ロールプレイ、ヘルスケア、教育、さらには敵対的な脱獄の設定における複雑な会話エンゲージメントまで、タスク固有のシナリオに焦点を当てて、長期にわたる対話上のコンテキスト、一貫性、公平性、および応答性を維持するという課題を体系的に調べます。
このペーパーは、現在のベンチマークとデータセットを、マルチターンダイアログ評価の進化する状況を反映する一貫したカテゴリに整理しています。
さらに、モデル中心の戦略(コンテキスト学習、監視された微調整、強化学習、および新しいアーキテクチャ)、外部統合アプローチ(メモリ能力、検索ベースの方法、知識グラフ)、および共同相互作用のエージェントベースの技術など、多ターン設定に基づくさまざまな強化方法論をレビューします。
最後に、LLMSにおけるマルチターン相互作用の堅牢性と有効性をさらに進めるために、研究のための将来の課題について議論し、将来の方向性を提案します。
関連リソースと論文は、https://github.com/yubol-cmu/awesome-multi-turn-llmsで入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have revolutionized their ability to handle single-turn tasks, yet real-world applications demand sophisticated multi-turn interactions. This survey provides a comprehensive review of recent advancements in evaluating and enhancing multi-turn interactions in LLMs. Focusing on task-specific scenarios, from instruction following in diverse domains such as math and coding to complex conversational engagements in roleplay, healthcare, education, and even adversarial jailbreak settings, we systematically examine the challenges of maintaining context, coherence, fairness, and responsiveness over prolonged dialogues. The paper organizes current benchmarks and datasets into coherent categories that reflect the evolving landscape of multi-turn dialogue evaluation. In addition, we review a range of enhancement methodologies under multi-turn settings, including model-centric strategies (contextual learning, supervised fine-tuning, reinforcement learning, and new architectures), external integration approaches (memory-augmented, retrieval-based methods, and knowledge graph), and agent-based techniques for collaborative interactions. Finally, we discuss open challenges and propose future directions for research to further advance the robustness and effectiveness of multi-turn interactions in LLMs. Related resources and papers are available at https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs.

arxiv情報

著者 Yubo Li,Xiaobin Shen,Xinyu Yao,Xueying Ding,Yidi Miao,Ramayya Krishnan,Rema Padman
発行日 2025-05-13 13:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Beyond Single-Turn: A Survey on Multi-Turn Interactions with Large Language Models はコメントを受け付けていません

From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation

要約

ロボット操作における一般化を達成することは、特に目に見えないシナリオや新しいタスクにとって、依然として重要な課題です。
現在のビジョン言語アクション(VLA)モデルは、一般的な視覚言語モデル(VLM)の上に構築されていますが、具体化されたデータセットで一般的な希少性と不均一性のために、堅牢なゼロショットパフォーマンスを達成することはまだ不足しています。
これらの制限に対処するために、FSD(見ることから行うまで)を提案します。これは、空間関係の推論を通じて中間表現を生成し、ロボット操作のための細かいガイダンスを提供する新しいビジョン言語モデルです。
私たちのアプローチでは、空間座標を視覚信号と整列させる自己整合メカニズムとトレーニングのための階層データパイプラインを組み合わせています。
広範な実験を通じて、FSDの能力を「SEES」と「DOING」の両方で包括的に検証し、一般的な空間的推論と具体化された参照能力のために8つのベンチマークにわたって優れたパフォーマンスを達成し、より挑戦的なベンチマークVabenchで具体化しました。
また、ロボット操作におけるゼロショット機能を検証し、SimplerEnvと実際のロボット設定の両方でベースライン方法よりも大幅なパフォーマンスの改善を示しました。
実験結果は、FSDが8つの現実世界のタスクにわたってSimplerENVで54.1%の成功率と72%の成功率を達成し、最強のベースラインを30%上回ることを示しています。

要約(オリジナル)

Achieving generalization in robotic manipulation remains a critical challenge, particularly for unseen scenarios and novel tasks. Current Vision-Language-Action (VLA) models, while building on top of general Vision-Language Models (VLMs), still fall short of achieving robust zero-shot performance due to the scarcity and heterogeneity prevalent in embodied datasets. To address these limitations, we propose FSD (From Seeing to Doing), a novel vision-language model that generates intermediate representations through spatial relationship reasoning, providing fine-grained guidance for robotic manipulation. Our approach combines a hierarchical data pipeline for training with a self-consistency mechanism that aligns spatial coordinates with visual signals. Through extensive experiments, we comprehensively validated FSD’s capabilities in both ‘seeing’ and ‘doing,’ achieving outstanding performance across 8 benchmarks for general spatial reasoning and embodied reference abilities, as well as on our proposed more challenging benchmark VABench. We also verified zero-shot capabilities in robot manipulation, demonstrating significant performance improvements over baseline methods in both SimplerEnv and real robot settings. Experimental results show that FSD achieves 54.1% success rate in SimplerEnv and 72% success rate across 8 real-world tasks, outperforming the strongest baseline by 30%.

arxiv情報

著者 Yifu Yuan,Haiqin Cui,Yibin Chen,Zibin Dong,Fei Ni,Longxin Kou,Jinyi Liu,Pengyi Li,Yan Zheng,Jianye Hao
発行日 2025-05-13 13:20:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation はコメントを受け付けていません

Small but Significant: On the Promise of Small Language Models for Accessible AIED

要約

GPTは、AIED Proceedingsでますます人気のある用語である大規模な言語モデル(LLMS)とほぼ同義語になりました。
シンプルなキーワードベースの検索では、AIED 2024で発表された76の長い論文の61%がLLMSを使用して長年の課題のいくつかに対処し、43%がGPTに特に言及していることを説明しています。
GPTによって開拓されたLLMSは、教育に対するAIの影響を強化するエキサイティングな機会を生み出しますが、GPTおよびその他のリソース集約型LLMS(10Bを超えるパラメーターを含む)に対するフィールドの主な焦点は、小言語モデル(SLM)が潜在的な影響を無視して、リソースが構成する施設を提供し、等しく手頃な価格のAIツールを提供することでもたらす可能性があると主張します。
AIEDの重要な課題である知識コンポーネント(KC)発見に関する肯定的な結果にサポートされているため、PHI-2などのSLMが精巧なプロンプト戦略なしで効果的なソリューションを生成できることを実証します。
したがって、SLMベースのAIEDアプローチの開発により多くの注意を払う必要があります。

要約(オリジナル)

GPT has become nearly synonymous with large language models (LLMs), an increasingly popular term in AIED proceedings. A simple keyword-based search reveals that 61% of the 76 long and short papers presented at AIED 2024 describe novel solutions using LLMs to address some of the long-standing challenges in education, and 43% specifically mention GPT. Although LLMs pioneered by GPT create exciting opportunities to strengthen the impact of AI on education, we argue that the field’s predominant focus on GPT and other resource-intensive LLMs (with more than 10B parameters) risks neglecting the potential impact that small language models (SLMs) can make in providing resource-constrained institutions with equitable and affordable access to high-quality AI tools. Supported by positive results on knowledge component (KC) discovery, a critical challenge in AIED, we demonstrate that SLMs such as Phi-2 can produce an effective solution without elaborate prompting strategies. Hence, we call for more attention to developing SLM-based AIED approaches.

arxiv情報

著者 Yumou Wei,Paulo Carvalho,John Stamper
発行日 2025-05-13 13:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | Small but Significant: On the Promise of Small Language Models for Accessible AIED はコメントを受け付けていません