Low-power Spike-based Wearable Analytics on RRAM Crossbars

要約

この作業では、コンパクトさとエネルギー効率で知られているRRAM Crossbarsに基づいて、スパイクニューラルネットワーク(SNNS)を使用したスパイクベースのウェアラブル分析システムを導入します。
基礎となるRRAMクロスバーのハードウェアの制約とノイズ特性を考えると、従来のバックプロパゲーション(BP)に対する直接フィードバックアライメント(DFA)を使用して、事前に訓練されたSNNのオンライン適応をリアルタイムでオンラインで適応させることを提案します。
レイヤー並列勾配計算を可能にする直接フィードバックアライメント(DFA)学習は、RRAMクロスバーでのSNNをオンラインで適応するための高速でエネルギーおよび面積効率の高い方法として機能し、BPを使用して適応したものに対するより良いアルゴリズム性能を解き放ちます。
DFA_SIMと呼ばれる社内ハードウェア評価エンジンを使用した広範なシミュレーションにより、DFAは、BPと比較して最大64.1%低いエネルギー消費量、10.1%低い面積のオーバーヘッド、レイテンシの2.1倍の減少を達成し、最大7.55%の高価な脱安を実現することがわかります。
人間の活動認識(HAR)タスクの精度。

要約(オリジナル)

This work introduces a spike-based wearable analytics system utilizing Spiking Neural Networks (SNNs) deployed on an In-memory Computing engine based on RRAM crossbars, which are known for their compactness and energy-efficiency. Given the hardware constraints and noise characteristics of the underlying RRAM crossbars, we propose online adaptation of pre-trained SNNs in real-time using Direct Feedback Alignment (DFA) against traditional backpropagation (BP). Direct Feedback Alignment (DFA) learning, that allows layer-parallel gradient computations, acts as a fast, energy & area-efficient method for online adaptation of SNNs on RRAM crossbars, unleashing better algorithmic performance against those adapted using BP. Through extensive simulations using our in-house hardware evaluation engine called DFA_Sim, we find that DFA achieves upto 64.1% lower energy consumption, 10.1% lower area overhead, and a 2.1x reduction in latency compared to BP, while delivering upto 7.55% higher inference accuracy on human activity recognition (HAR) tasks.

arxiv情報

著者 Abhiroop Bhattacharjee,Jinquan Shi,Wei-Chen Chen,Xinxin Wang,Priyadarshini Panda
発行日 2025-02-10 18:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.ET | Low-power Spike-based Wearable Analytics on RRAM Crossbars はコメントを受け付けていません

Gradient Multi-Normalization for Stateless and Scalable LLM Training

要約

大規模な言語モデル(LLMS)のトレーニングは、通常、Adam(Kingma&BA、2015)のような適応オプティマイザーに依存しており、収束を加速するために追加の状態情報を保存しますが、重要なメモリオーバーヘッドが発生します。
Swan(Ma et al。、2024)などの最近の取り組みは、瞬間的な勾配に適用されるマルチステップ前処理手順を介してAdamに匹敵するパフォーマンスを達成しながら、オプティマイザー状態の必要性を排除することによりこれに対処しています。
白鳥の成功に動機付けられ、複数の規範に従って確率的勾配を正常化するステートレスオプティマザーを設計するための新しいフレームワークを紹介します。
これを達成するために、これらの規範w.r.tの勾配の正規化を実施するための簡単な交互スキームを提案します。
私たちの手順は、arbitrary意的な精度まで、問題の固定点を生み出すことができ、白鳥が慎重に選択された規範を備えた私たちのアプローチの特定の例であり、そのデザインをより深く理解することができることを示しています。
ただし、スワンの計算上の高価なホワイトニング/直交段階は、大規模なLMSの実用性を制限しています。
原則的な視点を使用して、より効率的でスケーラブルで実用的なステートレスオプティマイザーを開発します。
私たちのアルゴリズムは、白鳥の特性を緩和し、メモリ効率を保持しながら計算コストを大幅に削減し、大規模なモデルのトレーニングに適用できます。
最大10億パラメーターを備えたトレーニング前のLlamaモデルの実験は、Adamよりも3倍のスピードアップを示しており、メモリ要件が大幅に削減され、他のメモリ効率の高いベースラインよりも優れています。

要約(オリジナル)

Training large language models (LLMs) typically relies on adaptive optimizers like Adam (Kingma & Ba, 2015) which store additional state information to accelerate convergence but incur significant memory overhead. Recent efforts, such as SWAN (Ma et al., 2024) address this by eliminating the need for optimizer states while achieving performance comparable to Adam via a multi-step preprocessing procedure applied to instantaneous gradients. Motivated by the success of SWAN, we introduce a novel framework for designing stateless optimizers that normalizes stochastic gradients according to multiple norms. To achieve this, we propose a simple alternating scheme to enforce the normalization of gradients w.r.t these norms. We show that our procedure can produce, up to an arbitrary precision, a fixed-point of the problem, and that SWAN is a particular instance of our approach with carefully chosen norms, providing a deeper understanding of its design. However, SWAN’s computationally expensive whitening/orthogonalization step limit its practicality for large LMs. Using our principled perspective, we develop of a more efficient, scalable, and practical stateless optimizer. Our algorithm relaxes the properties of SWAN, significantly reducing its computational cost while retaining its memory efficiency, making it applicable to training large-scale models. Experiments on pre-training LLaMA models with up to 1 billion parameters demonstrate a 3X speedup over Adam with significantly reduced memory requirements, outperforming other memory-efficient baselines.

arxiv情報

著者 Meyer Scetbon,Chao Ma,Wenbo Gong,Edward Meeds
発行日 2025-02-10 18:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Gradient Multi-Normalization for Stateless and Scalable LLM Training はコメントを受け付けていません

Tamper-Resistant Safeguards for Open-Weight LLMs

要約

大規模な言語モデル(LLM)の能力の急速な進歩は、悪意のある使用の可能性に関する広範な懸念を提起しました。
オープンウェイトLLMは、既存の保護手段がモデルの重みを変更する改ざん攻撃に対する堅牢性を欠いているため、独自の課題を提示します。
たとえば、最近の作品は、微調整のいくつかのステップで拒否と学習の保護措置を些細なことに削除できることを実証しています。
これらの脆弱性は、オープンウェイトLLMの安全なリリースを可能にするための新しいアプローチを必要とします。
敵が何百もの微調整の後でも保護手段を削除することができないように、改ざん耐性保護ガードをオープンウェイトLLMに構築するための方法を開発します。
広範な評価と赤いチーム分析では、私たちの方法は、良性能力を維持しながら、改ざん抵抗を大幅に改善することがわかります。
私たちの結果は、改ざん耐性の進歩が可能であり、オープンウェイトLLMの安全とセキュリティを改善するための有望な新しい道を開くことを示しています。

要約(オリジナル)

Rapid advances in the capabilities of large language models (LLMs) have raised widespread concerns regarding their potential for malicious use. Open-weight LLMs present unique challenges, as existing safeguards lack robustness to tampering attacks that modify model weights. For example, recent works have demonstrated that refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning. These vulnerabilities necessitate new approaches for enabling the safe release of open-weight LLMs. We develop a method, called TAR, for building tamper-resistant safeguards into open-weight LLMs such that adversaries cannot remove the safeguards even after hundreds of steps of fine-tuning. In extensive evaluations and red teaming analyses, we find that our method greatly improves tamper-resistance while preserving benign capabilities. Our results demonstrate that progress on tamper-resistance is possible, opening up a promising new avenue to improve the safety and security of open-weight LLMs.

arxiv情報

著者 Rishub Tamirisa,Bhrugu Bharathi,Long Phan,Andy Zhou,Alice Gatti,Tarun Suresh,Maxwell Lin,Justin Wang,Rowan Wang,Ron Arel,Andy Zou,Dawn Song,Bo Li,Dan Hendrycks,Mantas Mazeika
発行日 2025-02-10 18:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Tamper-Resistant Safeguards for Open-Weight LLMs はコメントを受け付けていません

What makes a good feedforward computational graph?

要約

グラフの再配線に関する多数の文献で暗示されているように、ニューラルネットワークで採用されている計算グラフの選択は、その下流のパフォーマンスに大きな影響を与える可能性があります。
計算グラフに関連する特定の効果は、到達していることや過度のスケッシングなど、特定の機能を学習できないモデルをレンダリングすることさえあります。
これらの効果のほとんどは、無向グラフのドメインでのみ徹底的に研究されています。
しかし、近年、フィードフォワードの計算グラフに関心が大きく増加しています。バックエッジのない指示グラフです。
この論文では、フィードフォワード計算グラフの望ましい特性を研究し、忠実度と混合時間の2つの重要な補完的な測定値を発見し、これらの測定のレンズを通してグラフのいくつかの一般的な選択を評価します。
私たちの研究は、さまざまなグラフのメトリックの漸近挙動の理論的分析の両方に裏付けられており、これらのメトリックを対応するグラフを使用して訓練されたニューラルネットワークモデルのパフォーマンスと相関させます。

要約(オリジナル)

As implied by the plethora of literature on graph rewiring, the choice of computational graph employed by a neural network can make a significant impact on its downstream performance. Certain effects related to the computational graph, such as under-reaching and over-squashing, may even render the model incapable of learning certain functions. Most of these effects have only been thoroughly studied in the domain of undirected graphs; however, recent years have seen a significant rise in interest in feedforward computational graphs: directed graphs without any back edges. In this paper, we study the desirable properties of a feedforward computational graph, discovering two important complementary measures: fidelity and mixing time, and evaluating a few popular choices of graphs through the lens of these measures. Our study is backed by both theoretical analyses of the metrics’ asymptotic behaviour for various graphs, as well as correlating these metrics to the performance of trained neural network models using the corresponding graphs.

arxiv情報

著者 Alex Vitvitskyi,João G. M. Araújo,Marc Lackenby,Petar Veličković
発行日 2025-02-10 18:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI, stat.ML | What makes a good feedforward computational graph? はコメントを受け付けていません

LinkQ: An LLM-Assisted Visual Interface for Knowledge Graph Question-Answering

要約

LinkQを提示します。LinkQは、大規模な言語モデル(LLM)を活用して、自然言語の質問を介して知識グラフ(kg)クエリ構造を促進するシステムです。
従来のアプローチでは、多くの場合、グラフのクエリ言語の詳細な知識が必要であり、ユーザー(専門家でさえ)がKGSから貴重な洞察を得る能力を制限します。
LINKQは、LLMがユーザーの質問を解釈する多段階プロトコルを実装して、このプロセスを簡素化し、それを体系的に整形したクエリに変換します。
LINKQは、ユーザーが自由回答形式の質問を正確な質問に繰り返し改善し、ターゲットと探索的分析の両方をサポートするのに役立ちます。
さらに、Linkqは、ユーザーの質問がGround Truth KGデータからのみ回答されることを確認することにより、LLMの幻覚を妨害します。
5人のkg開業医との定性的研究を通じてLinkQの有効性を示します。
我々の結果は、実務家がKGの質問に効果的であるLinkqを見つけ、将来のLLM支援の探索的データ分析システムを望んでいることを示しています。

要約(オリジナル)

We present LinkQ, a system that leverages a large language model (LLM) to facilitate knowledge graph (KG) query construction through natural language question-answering. Traditional approaches often require detailed knowledge of a graph querying language, limiting the ability for users — even experts — to acquire valuable insights from KGs. LinkQ simplifies this process by implementing a multistep protocol in which the LLM interprets a user’s question, then systematically converts it into a well-formed query. LinkQ helps users iteratively refine any open-ended questions into precise ones, supporting both targeted and exploratory analysis. Further, LinkQ guards against the LLM hallucinating outputs by ensuring users’ questions are only ever answered from ground truth KG data. We demonstrate the efficacy of LinkQ through a qualitative study with five KG practitioners. Our results indicate that practitioners find LinkQ effective for KG question-answering, and desire future LLM-assisted exploratory data analysis systems.

arxiv情報

著者 Harry Li,Gabriel Appleby,Ashley Suh
発行日 2025-02-10 18:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LinkQ: An LLM-Assisted Visual Interface for Knowledge Graph Question-Answering はコメントを受け付けていません

Rationalization Models for Text-to-SQL

要約

テキストからSQLモデルの微調整を強化するために、考え方(COT)の理論的根拠を生成するためのフレームワークを紹介します。
これらの理論的根拠は、中間SQLステートメントと説明で構成され、最終的なSQLクエリの構築に向けた段階的なステップとして機能します。
このプロセスは、小さな一連の例を手動で注釈することから始まります。このセットは、教師モデルからの反復的で動的な少数の知識蒸留手順で大きな言語モデルを促すために使用されます。
その後、検証済みの分解されたクエリで合理化モデルがトレーニングされ、テキスト間データセットの広範な合成COTアノテーションが可能になります。
アプローチを評価するために、鳥のデータセットにこれらの理論的根拠を持つ場合となしで小さな言語モデルを微調整します。
結果は、特に中程度および非常に複雑なクエリの場合、ステップバイステップクエリの生成により、実行可能性が向上し、説明可能性が向上することを示しています。

要約(オリジナル)

We introduce a framework for generating Chain-of-Thought (CoT) rationales to enhance text-to-SQL model fine-tuning. These rationales consist of intermediate SQL statements and explanations, serving as incremental steps toward constructing the final SQL query. The process begins with manually annotating a small set of examples, which are then used to prompt a large language model in an iterative, dynamic few-shot knowledge distillation procedure from a teacher model. A rationalization model is subsequently trained on the validated decomposed queries, enabling extensive synthetic CoT annotations for text-to-SQL datasets. To evaluate the approach, we fine-tune small language models with and without these rationales on the BIRD dataset. Results indicate that step-by-step query generation improves execution accuracy, especially for moderately and highly complex queries, while also enhancing explainability.

arxiv情報

著者 Gaetano Rossiello,Nhan Pham,Michael Glass,Junkyu Lee,Shankar Subramanian
発行日 2025-02-10 18:38:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB | Rationalization Models for Text-to-SQL はコメントを受け付けていません

SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning

要約

このペーパーでは、挑戦的なインタラクティブなタスク学習シナリオに対処します。私たちは、不明確さの下で再配置と呼びます。エージェントが指示されたタスクを解決する鍵となる概念に気付いていないコンテキストで剛体環境を操作することです。
このような問題を解決するために設計されたインタラクティブなタスク学習フレームワークであるSecureを提案します。
具体化された会話を使用して不十分なドメインモデルを修正します。対話を通じて、エージェントが発見し、予期せぬ可能性を活用することを学びます。
特に、Secureは、間違いを犯したときにユーザーの具体化された是正フィードバックから学習し、指示されたタスクを解決するための新しい概念に関する有用な証拠を明らかにするために戦略的な対話の決定を下します。
一緒に、これらの能力により、エージェントは新しく獲得した知識を使用して後続のタスクに一般化することができます。
不明確さの下で再配置を解決することを学ぶことは、エージェントがセマンティクスを認識している場合、つまり学習と推論の両方で、セマンティック分析に由来する論理的結果との具体化された会話からの証拠を強化することを実現することを実証します。

要約(オリジナル)

This paper addresses a challenging interactive task learning scenario we call rearrangement under unawareness: to manipulate a rigid-body environment in a context where the agent is unaware of a concept that is key to solving the instructed task. We propose SECURE, an interactive task learning framework designed to solve such problems. It uses embodied conversation to fix its deficient domain model — through dialogue, the agent discovers and then learns to exploit unforeseen possibilities. In particular, SECURE learns from the user’s embodied corrective feedback when it makes a mistake, and it makes strategic dialogue decisions to reveal useful evidence about novel concepts for solving the instructed task. Together, these abilities allow the agent to generalise to subsequent tasks using newly acquired knowledge. We demonstrate that learning to solve rearrangement under unawareness is more data efficient when the agent is semantics-aware — that is, during both learning and inference it augments the evidence from the user’s embodied conversation with its logical consequences, stemming from semantic analysis.

arxiv情報

著者 Rimvydas Rubavicius,Peter David Fagan,Alex Lascarides,Subramanian Ramamoorthy
発行日 2025-02-10 18:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning はコメントを受け付けていません

ACECODER: Acing Coder RL via Automated Test-Case Synthesis

要約

最近のコーダーモデルのほとんどの進歩は、監視された微調整(SFT)によって推進されていますが、主にコードドメインに信頼できる報酬データ/モデルがないため、強化学習の可能性(RL)はほとんど未調査のままです。
この論文では、自動化された大規模なテストケース合成を活用してコードモデルトレーニングを強化することにより、この課題に対処します。
具体的には、既存のコードデータから広範な(質問、テストケース)ペアを生成するパイプラインを設計します。
これらのテストケースを使用して、サンプリングされたプログラムの合格率に基づいて優先ペアを構築し、ブラッドリーテリーの損失で報酬モデルを訓練します。
Llama-3.1-8b-insの平均10ポイント改善と、32のベストサンプリングを通じてQWEN2.5-Coder-7B-Insの5ポイント改善が示され、7Bモデルは236B DeepSeek-と同等になります。
v2.5。
さらに、報酬モデルとテストケースパスの報酬の両方で強化学習を実施し、Humanval、MBPP、BigCodebench、およびLiveCodebench(V4)全体で一貫した改善につながります。
特に、R1スタイルのトレーニングに従って、QWEN2.5-CODER-BASEから直接開始し、RLトレーニングがHumanEval-Plusのモデルを25 \%以上、MBPP-Plusを6 \%以上改善できることを示しています。
ステップ。
私たちの結果は、コーダーモデルの強化学習の大きな可能性を強調していると考えています。

要約(オリジナル)

Most progress in recent coder models has been driven by supervised fine-tuning (SFT), while the potential of reinforcement learning (RL) remains largely unexplored, primarily due to the lack of reliable reward data/model in the code domain. In this paper, we address this challenge by leveraging automated large-scale test-case synthesis to enhance code model training. Specifically, we design a pipeline that generates extensive (question, test-cases) pairs from existing code data. Using these test cases, we construct preference pairs based on pass rates over sampled programs to train reward models with Bradley-Terry loss. It shows an average of 10-point improvement for Llama-3.1-8B-Ins and 5-point improvement for Qwen2.5-Coder-7B-Ins through best-of-32 sampling, making the 7B model on par with 236B DeepSeek-V2.5. Furthermore, we conduct reinforcement learning with both reward models and test-case pass rewards, leading to consistent improvements across HumanEval, MBPP, BigCodeBench, and LiveCodeBench (V4). Notably, we follow the R1-style training to start from Qwen2.5-Coder-base directly and show that our RL training can improve model on HumanEval-plus by over 25\% and MBPP-plus by 6\% for merely 80 optimization steps. We believe our results highlight the huge potential of reinforcement learning in coder models.

arxiv情報

著者 Huaye Zeng,Dongfu Jiang,Haozhe Wang,Ping Nie,Xiaotong Chen,Wenhu Chen
発行日 2025-02-10 18:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | ACECODER: Acing Coder RL via Automated Test-Case Synthesis はコメントを受け付けていません

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

要約

Openaiの新しいモデルなどの最近のAIの進歩は、LLMSをLRMS(大きな推論モデル)に変換し、推論中に推論を実行し、余分な時間をかけ、高品質の出力を計算しています。
LRMSをトレーニングするためのアルゴリズムフレームワークを明らかにすることを目指しています。
自己整合性、PRM、アルファゼロなどの方法は、ガイド付き検索としての推論を示唆しています。
私たちは尋ねます:LLMSでの検索を有効にするための最も単純で最もスケーラブルな方法は何ですか?
自己プレイ(RLSP)を介して、補強学習と呼ばれるトレーニング後のフレームワークを提案します。
RLSPには3つのステップが含まれます。(1)推論プロセスの人間または合成デモンストレーションを監督した微調整、(2)多様で効率的な推論行動を促進するための探査報酬信号を使用し、(3)結果検証者とのRLトレーニングを確実に保証するためのRLトレーニング
報酬のハッキングを防ぎながら正しさ。
私たちの主要な革新は、PPOトレーニング中に探査と正確性シグナルを切り離し、パフォーマンスと効率を向上させるために慎重にバランスをとることです。
数学ドメインの実証研究は、RLSPが推論を改善することを示しています。
llama-3.1-8b-instructモデルでは、RLSPはMATH-500テストセットで23%のパフォーマンスを向上させることができます。
AIME 2024の数学の問題では、QWEN2.5-32B-InstructはRLSPにより10%改善されました。
ただし、この作業のより重要な発見は、モデルがより単純な調査報酬を使用して、モデルがより中間の手順をとることを奨励している場合でも、バックトラッキング、アイデアの探索、検証などのいくつかの緊急行動を示したことです。
これらの調査結果は、RLSPフレームワークがスケーリング時にLLMの複雑な推論能力の出現を可能にするのに十分である可能性があることを示しています。
最後に、COTがLLMSの計算能力を増加させるという顕著な結果に触発されたLLMS戦略により、RLSP検索戦略がより適している理由についての理論を提案します。

要約(オリジナル)

Recent AI advancements, such as OpenAI’s new models, are transforming LLMs into LRMs (Large Reasoning Models) that perform reasoning during inference, taking extra time and compute for higher-quality outputs. We aim to uncover the algorithmic framework for training LRMs. Methods like self-consistency, PRM, and AlphaZero suggest reasoning as guided search. We ask: what is the simplest, most scalable way to enable search in LLMs? We propose a post-training framework called Reinforcement Learning via Self-Play (RLSP). RLSP involves three steps: (1) supervised fine-tuning with human or synthetic demonstrations of the reasoning process, (2) using an exploration reward signal to encourage diverse and efficient reasoning behaviors, and (3) RL training with an outcome verifier to ensure correctness while preventing reward hacking. Our key innovation is to decouple exploration and correctness signals during PPO training, carefully balancing them to improve performance and efficiency. Empirical studies in the math domain show that RLSP improves reasoning. On the Llama-3.1-8B-Instruct model, RLSP can boost performance by 23% in MATH-500 test set; On AIME 2024 math problems, Qwen2.5-32B-Instruct improved by 10% due to RLSP. However, a more important finding of this work is that the models trained using RLSP, even with the simplest exploration reward that encourages the model to take more intermediate steps, showed several emergent behaviors such as backtracking, exploration of ideas, and verification. These findings demonstrate that RLSP framework might be enough to enable emergence of complex reasoning abilities in LLMs when scaled. Lastly, we propose a theory as to why RLSP search strategy is more suitable for LLMs inspired by a remarkable result that says CoT provably increases computational power of LLMs, which grows as the number of steps in CoT \cite{li2024chain,merrill2023expresssive}.

arxiv情報

著者 Guanghao Ye,Khiem Duc Pham,Xinzhi Zhang,Sivakanth Gopi,Baolin Peng,Beibin Li,Janardhan Kulkarni,Huseyin A. Inan
発行日 2025-02-10 18:52:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | On the Emergence of Thinking in LLMs I: Searching for the Right Intuition はコメントを受け付けていません

Towards Internet-Scale Training For Agents

要約

Webナビゲーションエージェントをトレーニングするための主なアプローチは、人気のあるWebサイトや手書きのタスクのセットの人間のデモンストレーションを集めていますが、人間のデータが非効率的なリソースであることが明らかになっています。
面倒な人間の注釈なしでエージェントのインターネットスケールトレーニングを容易にするために、パイプラインを開発します。
最初の段階では、LLMが150kの多様なWebサイトのタスクを生成します。
次の段階では、LLMエージェントはタスクを完了し、軌跡を生成します。
最終段階では、LLMが軌跡をレビューし、成功を判断します。
言語モデルは、人間のアノテーターと競合し、97%の精度で有害なコンテンツを検出およびフィルタリングし、89%のレートで実行可能なタスクを生成し、82.6%の精度で成功した軌道を判断します。
パイプラインをスケーリングすると、Llama 3.1 70bに基づくエージェントは、150Kサイトのタスクの16.7%を解きます。
パイプラインによって生成されたデータに関するトレーニングは、人間のデモンストレーションに関するトレーニングと競争します。
Mind2WebとWeblinxから派生したデータ制限設定では、パイプラインからのデータの混合物とヒトデータでトレーニングされたエージェントについて、それぞれ +89.5%と +122.1%までステップ精度を向上させます。
これらのベンチマークから利用可能なすべての人間データを備えたトレーニングエージェントは、エージェントが多様な実際のサイトに一般化することができず、データを追加すると、Weblinxで +149.0%、Mind2Webで +156.3%を改善します。
コードは、data-agents.github.ioで入手できます。

要約(オリジナル)

The predominant approach for training web navigation agents gathers human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data are an inefficient resource. We develop a pipeline to facilitate Internet-scale training for agents without laborious human annotations. In the first stage, an LLM generates tasks for 150k diverse websites. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM reviews the trajectories and judges their success. Language models are competitive with human annotators, detecting and filtering out harmful content with an accuracy of 97%, generating feasible tasks with an 89% rate, and judging successful trajectories with an 82.6% accuracy. Scaling the pipeline, agents based on Llama 3.1 70B solve 16.7% of tasks for 150k sites. Training on the data generated by our pipeline is competitive with training on human demonstrations. In data-limited settings derived from Mind2Web and WebLINX, we improve Step Accuracy by up to +89.5% and +122.1% respectively for agents trained on mixtures of data from our pipeline, and human data. When training agents with all available human data from these benchmarks, agents fail to generalize to diverse real sites, and adding our data improves their generalization by +149.0% for WebLINX and +156.3% for Mind2Web. Code will be available at: data-for-agents.github.io.

arxiv情報

著者 Brandon Trabucco,Gunnar Sigurdsson,Robinson Piramuthu,Ruslan Salakhutdinov
発行日 2025-02-10 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Towards Internet-Scale Training For Agents はコメントを受け付けていません