Modeling AI-Human Collaboration as a Multi-Agent Adaptation

要約

エージェントベースのシミュレーションを開発して、AI-Humanコラボレーションをタスク構造の関数として形式化し、組織での戦略的意思決定のための一般化可能なフレームワークを進めています。
ヒューリスティックベースの人間の適応とルールベースのAI検索を区別して、NKモデルを使用してモジュラー(並列)とシーケンス(相互依存)タスクを介した相互作用をモデル化します。
我々の結果は、モジュラータスクでは、AIはしばしば人間を代用します – 人間の専門知識が非常に高く、AIの検索スペースが狭く焦点を絞っているか、非常に広い場合を除き、より高い見返りを提供します。
シーケンスされたタスクでは、興味深い補完性が現れます。
専門家の人間が検索を開始し、その後AIがそれを改良すると、総パフォーマンスが最大化されます。
逆に、AIがリードすると、人間による過度のヒューリスティック洗練は、見返りを減らすことができます。
また、「幻覚」AIでさえ、記憶や構造を欠いていることでさえ、地元のオプティマから逃れるのを助けることで低能力の人間を増やすときに結果を改善できることを示しています。
これらの結果は、堅牢な含意をもたらします。AIと人間のコラボレーションの有効性は、コンテキストまたは業界に依存し、基礎となるタスク構造に依存します。
分析の中央単位としてタスク分解を高めることにより、我々のモデルは、多様な組織設定全体にわたる人間とエージェントAIが関与する戦略的意思決定のための転送可能なレンズを提供します。

要約(オリジナル)

We develop an agent-based simulation to formalize AI-human collaboration as a function of task structure, advancing a generalizable framework for strategic decision-making in organizations. Distinguishing between heuristic-based human adaptation and rule-based AI search, we model interactions across modular (parallel) and sequenced (interdependent) tasks using an NK model. Our results reveal that in modular tasks, AI often substitutes for humans – delivering higher payoffs unless human expertise is very high, and the AI search space is either narrowly focused or extremely broad. In sequenced tasks, interesting complementarities emerge. When an expert human initiates the search and AI subsequently refines it, aggregate performance is maximized. Conversely, when AI leads, excessive heuristic refinement by the human can reduce payoffs. We also show that even ‘hallucinatory’ AI – lacking memory or structure – can improve outcomes when augmenting low-capability humans by helping escape local optima. These results yield a robust implication: the effectiveness of AI-human collaboration depends less on context or industry, and more on the underlying task structure. By elevating task decomposition as the central unit of analysis, our model provides a transferable lens for strategic decision-making involving humans and an agentic AI across diverse organizational settings.

arxiv情報

著者 Prothit Sen,Sai Mihir Jakkaraju
発行日 2025-04-29 16:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.MA | Modeling AI-Human Collaboration as a Multi-Agent Adaptation はコメントを受け付けていません

When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines

要約

レッドチーミングは、AIモデルが有害なコンテンツを生成しないことを保証するインフラストラクチャの中核部分です。
過去のテクノロジーとは異なり、生成AIシステムのブラックボックスの性質には、レッドチームの個人がシステムと積極的に対話し、悪意のある俳優をシミュレートし、有害な出力を求めるために自然言語を活用するユニークな相互作用モードのテストを必要とします。
赤いチームによって行われたこの相互作業労働は、効果的に赤チームに必要な敵対的なエンゲージメント戦略と一意に結びついているメンタルヘルスの害をもたらす可能性があります。
生成的AIモデルが社会的または個人の害を広めないことを保証することの重要性は広く認識されています。エンドツーエンドのAI安全性の目に見えない基盤の1つは、モデル出力を安全に保つために働く人々の精神的健康と幸福の保護でもあります。
この論文では、AI Red-Teamersの満たされていないメンタルヘルスのニーズは、職場の安全性の重要な懸念であると主張しています。
レッドチームが行う労働に関連するユニークなメンタルヘルスへの影響を分析することにより、これらのニーズを満たし、赤チームの精神的健康を保護するために使用できる潜在的な個人および組織戦略を提案します。
私たちは、他の職業(俳優、メンタルヘルスの専門家、紛争写真家、コンテンツモデレーターを含む)に共通する一般的なレッドチームの実践と相互作用労働との間の類似点を引き出すことにより、提案された戦略を開発し、これらの専門的なスペース内の個人や組織が同様の心理的要求を考慮してメンタルヘルスを保護する方法を説明します。
これらの保護慣行に基づいて、新しいデジタルフロントラインの新たな技術的リスクを軽減する際に、レッドチーム化組織が経験する明確なメンタルヘルスの課題にセーフガードがどのように適応できるかを説明します。

要約(オリジナル)

Red-teaming is a core part of the infrastructure that ensures that AI models do not produce harmful content. Unlike past technologies, the black box nature of generative AI systems necessitates a uniquely interactional mode of testing, one in which individuals on red teams actively interact with the system, leveraging natural language to simulate malicious actors and solicit harmful outputs. This interactional labor done by red teams can result in mental health harms that are uniquely tied to the adversarial engagement strategies necessary to effectively red team. The importance of ensuring that generative AI models do not propagate societal or individual harm is widely recognized — one less visible foundation of end-to-end AI safety is also the protection of the mental health and wellbeing of those who work to keep model outputs safe. In this paper, we argue that the unmet mental health needs of AI red-teamers is a critical workplace safety concern. Through analyzing the unique mental health impacts associated with the labor done by red teams, we propose potential individual and organizational strategies that could be used to meet these needs, and safeguard the mental health of red-teamers. We develop our proposed strategies through drawing parallels between common red-teaming practices and interactional labor common to other professions (including actors, mental health professionals, conflict photographers, and content moderators), describing how individuals and organizations within these professional spaces safeguard their mental health given similar psychological demands. Drawing on these protective practices, we describe how safeguards could be adapted for the distinct mental health challenges experienced by red teaming organizations as they mitigate emerging technological risks on the new digital frontlines.

arxiv情報

著者 Sachin R. Pendse,Darren Gergle,Rachel Kornfield,Jonah Meyerhoff,David Mohr,Jina Suh,Annie Wescott,Casey Williams,Jessica Schleider
発行日 2025-04-29 16:27:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines はコメントを受け付けていません

MADGEN: Mass-Spec attends to De Novo Molecular generation

要約

MS/MSスペクトルの注釈(構造化学的アイデンティティの割り当て)は、生物学的サンプルの膨大な分子多様性と限られた参照データベースのために、重要な課題のままです。
現在、スペクトル測定の大部分は、構造的注釈なしで「暗い化学空間」に残っています。
注釈を改善するために、質量分析データに導かれるde novo分子構造生成の足場ベースの方法であるMadgen(Mass-specがde novo分子生成に注意を払う)を提案します。
Madgenは、足場の回収とスペクトル条件の分子生成の2つの段階で動作します。
最初の段階では、MS/MSスペクトルを考慮して、ランキングの問題として足場検索を策定し、対照的な学習を採用して質量スペクトルを候補分子足場と整列させます。
検索された足場から始まる第2段階では、MS/MSスペクトルを使用して、注意ベースの生成モデルを導き、最終分子を生成します。
私たちのアプローチは、分子生成の検索スペースを制約し、その複雑さを軽減し、生成の精度を向上させます。
3つのデータセット(NIST23、Canopus、およびMassSpecgym)でMadGenを評価し、MadGenのパフォーマンスを予測的な足場レトリバーとOracle Retriverで評価します。
Oracle Retriverで強力な結果を達成するために、生成プロセス全体でスペクトル情報を統合するために注意を使用することの有効性を実証します。

要約(オリジナル)

The annotation (assigning structural chemical identities) of MS/MS spectra remains a significant challenge due to the enormous molecular diversity in biological samples and the limited scope of reference databases. Currently, the vast majority of spectral measurements remain in the ‘dark chemical space’ without structural annotations. To improve annotation, we propose MADGEN (Mass-spec Attends to De Novo Molecular GENeration), a scaffold-based method for de novo molecular structure generation guided by mass spectrometry data. MADGEN operates in two stages: scaffold retrieval and spectra-conditioned molecular generation starting with the scaffold. In the first stage, given an MS/MS spectrum, we formulate scaffold retrieval as a ranking problem and employ contrastive learning to align mass spectra with candidate molecular scaffolds. In the second stage, starting from the retrieved scaffold, we employ the MS/MS spectrum to guide an attention-based generative model to generate the final molecule. Our approach constrains the molecular generation search space, reducing its complexity and improving generation accuracy. We evaluate MADGEN on three datasets (NIST23, CANOPUS, and MassSpecGym) and evaluate MADGEN’s performance with a predictive scaffold retriever and with an oracle retriever. We demonstrate the effectiveness of using attention to integrate spectral information throughout the generation process to achieve strong results with the oracle retriever.

arxiv情報

著者 Yinkai Wang,Xiaohui Chen,Liping Liu,Soha Hassoun
発行日 2025-04-29 16:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | MADGEN: Mass-Spec attends to De Novo Molecular generation はコメントを受け付けていません

Optimal In-Network Distribution of Learning Functions for a Secure-by-Design Programmable Data Plane of Next-Generation Networks

要約

プログラム可能なデータプレーン(PDP)およびネットワークコンピューティング(INC)パラダイムの台頭により、高度な処理タスクを実行できるネットワークデバイス(スイッチ、ネットワークインターフェイスカードなど)の開発への道が開かれます。
これにより、ネットワーク内で機械学習を含むさまざまな種類のアルゴリズムを実行して、ユーザーとネットワークサービスをサポートできます。
特に、このペーパーでは、完全に分散した侵入検知システム(IDS)または侵入予防システム(IPS)を実装する目的で、ネットワーク内学習モデルの展開を掘り下げています。
具体的には、デバイスの通常の操作に過度に負担をかけずに完全なネットワークセキュリティを確保することを目的として、データプレーンデバイス間のIDS/IPSワークロードの最適な分布のためにモデルが提案されています。
さらに、数学モデルとそのパフォーマンスが提供する正確なソリューションで必要な長い計算時間を短縮するために、メタヒューリスティックなアプローチが評価されます。
実施された分析と得られた結果は、サイバー攻撃に対する第一の防御線として効果的かつ自律的に作用するインテリジェントデータプレーンの作成のための提案された新しいアプローチの大きな可能性を示しており、関係するネットワークデバイスの追加作業負荷を最小限に抑えます。

要約(オリジナル)

The rise of programmable data plane (PDP) and in-network computing (INC) paradigms paves the way for the development of network devices (switches, network interface cards, etc.) capable of performing advanced processing tasks. This allows running various types of algorithms, including machine learning, within the network itself to support user and network services. In particular, this paper delves into the deployment of in-network learning models with the aim of implementing fully distributed intrusion detection systems (IDS) or intrusion prevention systems (IPS). Specifically, a model is proposed for the optimal distribution of the IDS/IPS workload among data plane devices with the aim of ensuring complete network security without excessively burdening the normal operations of the devices. Furthermore, a meta-heuristic approach is proposed to reduce the long computation time required by the exact solution provided by the mathematical model and its performance is evaluated. The analysis conducted and the results obtained demonstrate the enormous potential of the proposed new approach for the creation of intelligent data planes that act effectively and autonomously as the first line of defense against cyber attacks, with minimal additional workload on the network devices involved.

arxiv情報

著者 Mattia Giovanni Spina,Edoardo Scalzo,Floriano De Rango,Francesca Guerriero,Antonio Iera
発行日 2025-04-29 16:33:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NI, math.OC | Optimal In-Network Distribution of Learning Functions for a Secure-by-Design Programmable Data Plane of Next-Generation Networks はコメントを受け付けていません

Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for AI Training in Healthcare

要約

高品質の医療データへのアクセスは、プライバシーの懸念のために制限されることがよくあり、電子健康記録(EHR)アプリケーション内で人工知能(AI)アルゴリズムをトレーニングするための重大な課題を提起します。
この研究では、GPT-4 APIを使用した迅速なエンジニアリングを使用して、この制限を克服することを目的とした高品質の合成データセットを生成しました。
生成されたデータには、医療提供者の詳細、病院部門、病棟、ベッドの割り当て、患者の障害、緊急連絡先、バイタルサイン、予防接種、アレルギー、病歴、予約、病院の訪問、臨床検査、診断、診断、治療計画、臨床券、訪問、訪問ログ、リファレンスなどの包括的な患者入場情報が含まれていました。
データの品質と整合性を確保するために、Bertの次の文のコヒーレンスの次の文予測、全体的な妥当性のGPT-2、論理的一貫性のためのRoberta、異常検出の自動エンコーダー、多様性分析を実施するモデルを使用して、高度な検証手法を実装しました。
すべての検証基準を満たす合成データは、EHRアプリケーションのデータ管理システムとして機能する包括的なPostgreSQLデータベースに統合されました。
このアプローチは、厳密な検証を伴う生成AIモデルを活用すると、高品質の合成医療データを効果的に生成し、実際の患者データに関連するプライバシーの懸念に対処しながらAIアルゴリズムのトレーニングを促進できることを示しています。

要約(オリジナル)

Access to high-quality medical data is often restricted due to privacy concerns, posing significant challenges for training artificial intelligence (AI) algorithms within Electronic Health Record (EHR) applications. In this study, prompt engineering with the GPT-4 API was employed to generate high-quality synthetic datasets aimed at overcoming this limitation. The generated data encompassed a comprehensive array of patient admission information, including healthcare provider details, hospital departments, wards, bed assignments, patient demographics, emergency contacts, vital signs, immunizations, allergies, medical histories, appointments, hospital visits, laboratory tests, diagnoses, treatment plans, medications, clinical notes, visit logs, discharge summaries, and referrals. To ensure data quality and integrity, advanced validation techniques were implemented utilizing models such as BERT’s Next Sentence Prediction for sentence coherence, GPT-2 for overall plausibility, RoBERTa for logical consistency, autoencoders for anomaly detection, and conducted diversity analysis. Synthetic data that met all validation criteria were integrated into a comprehensive PostgreSQL database, serving as the data management system for the EHR application. This approach demonstrates that leveraging generative AI models with rigorous validation can effectively produce high-quality synthetic medical data, facilitating the training of AI algorithms while addressing privacy concerns associated with real patient data.

arxiv情報

著者 Polycarp Nalela
発行日 2025-04-29 16:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for AI Training in Healthcare はコメントを受け付けていません

DYNAMAX: Dynamic computing for Transformers and Mamba based architectures

要約

早期出口(EES)は、データサンプルの満足のいく予測信頼度が達成されたら、推論を動的に終了することにより、計算コストと遅延を削減するための有望なアプローチを提供します。
多くの作業は、EEをエンコーダーのみのトランス、デコーダーのみのアーキテクチャへのアプリケーション、さらに重要なことに、LLM領域の州空間アーキテクチャの新しいファミリーであるMAMBAモデルへのアプリケーションを不十分に調査したままです。
この作業では、早期出口メカニズムのためにMambaアーキテクチャのユニークな特性を活用する最初のフレームワークであるDynamaxを紹介します。
EESをMambaに統合するだけでなく、MambaベースとトランスベースのLLMの両方の効率的なEE分類器としてMambaを再利用し、その汎用性を示しています。
私たちの実験は、Codestral 7B MAMBAモデルと比較してMistral 7Bトランスを採用しています。これは、Truthfulqa、Coqa、Triviaqaなどのデータセットを使用して、計算の節約、精度、一貫性を評価します。
結果は、強力なEE分類器としてのMAMBAの適応性と、NLPタスク全体の計算コストとパフォーマンスの品質のバランスをとる効率を強調しています。
動的処理のためのMambaの固有の設計を活用することにより、埋め込まれたアプリケーションとリソース制約の環境でスケーラブルで効率的な推論のための経路を開きます。
この研究では、LLMの動的コンピューティングパラダイムを再定義する際に、MAMBAの変革の可能性を強調しています。

要約(オリジナル)

Early exits (EEs) offer a promising approach to reducing computational costs and latency by dynamically terminating inference once a satisfactory prediction confidence on a data sample is achieved. Although many works integrate EEs into encoder-only Transformers, their application to decoder-only architectures and, more importantly, Mamba models, a novel family of state-space architectures in the LLM realm, remains insufficiently explored. This work introduces DYNAMAX, the first framework to exploit the unique properties of Mamba architectures for early exit mechanisms. We not only integrate EEs into Mamba but also repurpose Mamba as an efficient EE classifier for both Mamba-based and transformer-based LLMs, showcasing its versatility. Our experiments employ the Mistral 7B transformer compared to the Codestral 7B Mamba model, using data sets such as TruthfulQA, CoQA, and TriviaQA to evaluate computational savings, accuracy, and consistency. The results highlight the adaptability of Mamba as a powerful EE classifier and its efficiency in balancing computational cost and performance quality across NLP tasks. By leveraging Mamba’s inherent design for dynamic processing, we open pathways for scalable and efficient inference in embedded applications and resource-constrained environments. This study underscores the transformative potential of Mamba in redefining dynamic computing paradigms for LLMs.

arxiv情報

著者 Miguel Nogales,Matteo Gambella,Manuel Roveri
発行日 2025-04-29 16:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T07, cs.AI, cs.CL, cs.LG | DYNAMAX: Dynamic computing for Transformers and Mamba based architectures はコメントを受け付けていません

A Domain-Agnostic Scalable AI Safety Ensuring Framework

要約

AIシステムの安全性が最近、特に物理的なAIアプリケーションで、実際の展開の重要な優先事項として最近浮上しました。
AIの安全性への現在のアプローチは、通常、事前に定義されたドメイン固有の安全条件に対処し、コンテキスト全体で一般化する能力を制限します。
AIシステムが\ textBf {任意のユーザー定義の制約}、\ textBf {任意の確率}、および\ textbf {さまざまなドメイン}を介して\ textbf {任意の確率}を保証する新しいAI安全フレームワークを提案します。
このフレームワークでは、AIコンポーネント(ニューラルネットワークなど)を最適化問題と組み合わせて、ユーザー定義の制約を満たしながら、ユーザー定義のしきい値を超える確率を満たしながら目標を最小限に抑える応答を生成します。
AIコンポーネントの信頼性評価のために、\ textIT {内部テストデータ}、安全標識データの補足セット、および内部テストデータの使用の統計的有効性を提供する\ textIT {保守的テスト}方法論を提案します。
また、損失関数の近似方法と、トレーニングの勾配を計算する方法も提示します。
確率的制約満足度が特定の軽度の条件下で保証されていることを数学的に証明し、安全性と内部テストデータの数との間のスケーリング法則を証明します。
多様なドメインでの実験を通じてフレームワークの有効性を実証します。これは、生産決定の需要予測、SafetyGymシミュレーター内の安全な補強学習、およびAIチャットボットの出力を守ることです。
これらの実験を通じて、私たちの方法は、ユーザー指定の制約の安全性を保証し、{for \ textBf {最大数桁の大きさ}}の既存のメソッドを上回ることを実証します。

要約(オリジナル)

Ensuring the safety of AI systems has recently emerged as a critical priority for real-world deployment, particularly in physical AI applications. Current approaches to AI safety typically address predefined domain-specific safety conditions, limiting their ability to generalize across contexts. We propose a novel AI safety framework that ensures AI systems comply with \textbf{any user-defined constraint}, with \textbf{any desired probability}, and across \textbf{various domains}. In this framework, we combine an AI component (e.g., neural network) with an optimization problem to produce responses that minimize objectives while satisfying user-defined constraints with probabilities exceeding user-defined thresholds. For credibility assessment of the AI component, we propose \textit{internal test data}, a supplementary set of safety-labeled data, and a \textit{conservative testing} methodology that provides statistical validity of using internal test data. We also present an approximation method of a loss function and how to compute its gradient for training. We mathematically prove that probabilistic constraint satisfaction is guaranteed under specific, mild conditions and prove a scaling law between safety and the number of internal test data. We demonstrate our framework’s effectiveness through experiments in diverse domains: demand prediction for production decision, safe reinforcement learning within the SafetyGym simulator, and guarding AI chatbot outputs. Through these experiments, we demonstrate that our method guarantees safety for user-specified constraints, outperforms {for \textbf{up to several order of magnitudes}} existing methods in low safety threshold regions, and scales effectively with respect to the size of internal test data.

arxiv情報

著者 Beomjun Kim,Kangyeon Kim,Sunwoo Kim,Heejin Ahn
発行日 2025-04-29 16:38:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Domain-Agnostic Scalable AI Safety Ensuring Framework はコメントを受け付けていません

Training Plug-n-Play Knowledge Modules with Deep Context Distillation

要約

特に低データのシナリオで、またはプライベートドキュメントや専門文書を扱う場合、(大規模な)言語モデルの事前トレーニング後の(大規模な)言語モデルの後の新しいまたは急速に進化する情報を動的に統合します。
コンテキスト内の学習と検索の高等発電(RAG)は、高い推論コストやグローバルなドキュメント情報をキャプチャできないことを含む、直面の制限があります。
このホワイトペーパーでは、ドキュメントレベルの知識モジュール(KMS)をトレーニングすることにより、知識をモジュール化する方法を提案します。
KMSは、パラメーター効率の高いLORAモジュールとして実装された軽量コンポーネントであり、新しいドキュメントに関する情報を保存するためにトレーニングされ、オンデマンドでモデルに簡単にプラグインできます。
次のトークン予測がKMSのトレーニング目標としてパフォーマンスが低いことを示します。
代わりに、深いコンテキストの蒸留を提案します。文書を文脈で取る教師の隠された状態とロジットをシミュレートするなどのKMSパラメーターを学習します。
私たちの方法は、2つのデータセットにわたって、標準の次のトークン予測とインストラクション前のトレーニング技術を上回ります。
最後に、KMSとRAGの相乗効果を強調します。

要約(オリジナル)

Dynamically integrating new or rapidly evolving information after (Large) Language Model pre-training remains challenging, particularly in low-data scenarios or when dealing with private and specialized documents. In-context learning and retrieval-augmented generation (RAG) face limitations, including their high inference costs and their inability to capture global document information. In this paper, we propose a way of modularizing knowledge by training document-level Knowledge Modules (KMs). KMs are lightweight components implemented as parameter-efficient LoRA modules, which are trained to store information about new documents and can be easily plugged into models on demand. We show that next-token prediction performs poorly as the training objective for KMs. We instead propose Deep Context Distillation: we learn KMs parameters such as to simulate hidden states and logits of a teacher that takes the document in context. Our method outperforms standard next-token prediction and pre-instruction training techniques, across two datasets. Finally, we highlight synergies between KMs and RAG.

arxiv情報

著者 Lucas Caccia,Alan Ansell,Edoardo Ponti,Ivan Vulić,Alessandro Sordoni
発行日 2025-04-29 17:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Training Plug-n-Play Knowledge Modules with Deep Context Distillation はコメントを受け付けていません

Trace-of-Thought: Enhanced Arithmetic Problem Solving via Reasoning Distillation From Large to Small Language Models

要約

大規模な言語モデル(LLM)が毎日のタスクに活用され続けているため、特に算術推論などの専門知識を必要とするドメインでは、計算言語学における迅速な貢献分野のままです。
これらのLLMはさまざまなタスクに最適化されていますが、それらの徹底的な雇用は、小さなチームにとって計算的または財政的に面倒になる可能性があります。
さらに、独自のクローズドソースモデルに完全に依存しているため、カスタマイズと適応性が制限されることが多く、研究とアプリケーションのスケーラビリティに大きな課題をもたらします。
代わりに、70億パラメーター以下でオープンソースモデルを活用することにより、標準のプロンプトアプローチに対する顕著な利益を観察しながら、リソースの使用を最適化することができます。
この概念を育むために、算術の推論機能を強化するために特別に設計された、重要な問題解決を使用してLLMSを指示するシンプルでゼロショットのプロンプトエンジニアリング方法であるTrace-of-shot shotプロンプトエンジニアリング方法を紹介します。
GPT-4と並行してオープンソースモデルに適用されると、Trace-of-Thoughtが問題解決プロセスに対する新しい洞察を可能にするだけでなく、70億パラメーターまたは70億パラメーターで言語モデルで125%というパフォーマンスの向上を導入することがわかります。
このアプローチは、AIの研究を民主化し、高品質の計算言語学アプリケーションのアクセシビリティを改善するオープンソースイニシアチブの可能性を強調しています。

要約(オリジナル)

As Large Language Models (LLMs) continue to be leveraged for daily tasks, prompt engineering remains an active field of contribution within computational linguistics, particularly in domains requiring specialized knowledge such as arithmetic reasoning. While these LLMs are optimized for a variety of tasks, their exhaustive employment may become computationally or financially cumbersome for small teams. Additionally, complete reliance on proprietary, closed-source models often limits customization and adaptability, posing significant challenges in research and application scalability. Instead, by leveraging open-source models at or below 7 billion parameters, we can optimize our resource usage while still observing remarkable gains over standard prompting approaches. To cultivate this notion, we introduce Trace-of-Thought Prompting, a simple, zero-shot prompt engineering method that instructs LLMs to create observable subproblems using critical problem-solving, specifically designed to enhance arithmetic reasoning capabilities. When applied to open-source models in tandem with GPT-4, we observe that Trace-of-Thought not only allows novel insight into the problem-solving process but also introduces performance gains as large as 125% on language models at or below 7 billion parameters. This approach underscores the potential of open-source initiatives in democratizing AI research and improving the accessibility of high-quality computational linguistics applications.

arxiv情報

著者 Tyler McDonald,Ali Emami
発行日 2025-04-29 17:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Trace-of-Thought: Enhanced Arithmetic Problem Solving via Reasoning Distillation From Large to Small Language Models はコメントを受け付けていません

OSVBench: Benchmarking LLMs on Specification Generation Tasks for Operating System Verification

要約

オペレーティングシステムのカーネル検証タスクに関連する完全な仕様コードを生成する際に、大規模な言語モデル(LLMS)を評価するための新しいベンチマークであるOSVBenchを紹介します。
ベンチマークは、最初に、LLMにプログラミングモデルを提供することにより、構文とセマンティクスの限定範囲内で、仕様生成問題をプログラム合成問題に定義します。
LLMSは、提供された検証の仮定と潜在的な構文とセマンティクス空間を検索し、オペレーティングシステムの高レベルの機能記述のガイダンスの下で潜在的にバグのオペレーティングシステムコードの実装の完全な仕様を生成する必要があります。
このベンチマークは、現実世界のオペレーティングシステムカーネル、ハイパーカーネルの上に構築され、合計245の複雑な仕様生成タスクで構成されており、それぞれが約20k〜30kトークンの長いコンテキストタスクです。
12 LLMの包括的な評価は、オペレーティングシステムの検証のための仕様生成タスクでの現在のLLMの限られたパフォーマンスを示しています。
ベンチマークでのパフォーマンスの大幅な格差は、長いコンテキストコード生成タスクを処理する能力の違いを強調しています。
評価ツールキットとベンチマークは、https://github.com/lishyu-hkust/osvbenchで入手できます。

要約(オリジナル)

We introduce OSVBench, a new benchmark for evaluating Large Language Models (LLMs) in generating complete specification code pertaining to operating system kernel verification tasks. The benchmark first defines the specification generation problem into a program synthesis problem within a confined scope of syntax and semantics by providing LLMs with the programming model. The LLMs are required to understand the provided verification assumption and the potential syntax and semantics space to search for, then generate the complete specification for the potentially buggy operating system code implementation under the guidance of the high-level functional description of the operating system. This benchmark is built upon a real-world operating system kernel, Hyperkernel, and consists of 245 complex specification generation tasks in total, each is a long context task of about 20k-30k tokens. Our comprehensive evaluation of 12 LLMs exhibits the limited performance of the current LLMs on the specification generation tasks for operating system verification. Significant disparities in their performance on the benchmark highlight differences in their ability to handle long-context code generation tasks. The evaluation toolkit and benchmark are available at https://github.com/lishangyu-hkust/OSVBench.

arxiv情報

著者 Shangyu Li,Juyong Jiang,Tiancheng Zhao,Jiasi Shen
発行日 2025-04-29 17:34:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.OS, cs.PL, cs.SE | OSVBench: Benchmarking LLMs on Specification Generation Tasks for Operating System Verification はコメントを受け付けていません