要約
最新のAIアシスタントは、自然言語理解とツールの使用において大きな進歩を遂げ、ウェブインターフェースとの対話にも新たな取り組みが始まっている。しかし、LLMによるHTML解析の繰り返しに大きく依存する現在のアプローチは、特に動的なウェブインターフェースや複数ステップのタスクを扱う場合、計算コストが高く、エラーが発生しやすい。我々はPAFFA(Premeditated Actions For Fast Agents)を紹介する。PAFFAは、タスクに特化した学習を必要としない新しい推論時間技術を用いて、LLMをより高速かつ正確にインターネット上のタスクを完了させる手法である。PAFFAは「アクション・ライブラリ」を構築し、ベースとなるLLMのパラメトリック知識を活用して、タスク間で一般化するブラウザとのインタラクション・パターンを事前に計算します。LLMの推論をタスク間で戦略的に再利用することにより(タスクにとらわれない主要なインタラクティブなウェブ要素の識別のための「Dist-Map」、または新規タスク/サイトのファーストエンカウンターステートフル探索のための「Unravel」)、PAFFAは堅牢な性能を維持しながら推論時間を87%大幅に削減します(ベースラインと比較して0.57対0.50のステップ精度を達成)。さらに、探索に基づいてアクションライブラリを更新するUnravelの能力により、未知のウェブサイトへの汎化と適応が可能になる。まとめると、この研究は、LLM推論シーケンスがプロンプト間で汎化できることを示し、トークン数がリニアでないインターネット規模のデータに対して推論時間技術を拡張する方法を提供する。
要約(オリジナル)
Modern AI assistants have made significant progress in natural language understanding and tool-use, with emerging efforts to interact with Web interfaces. However, current approaches that heavily rely on repeated LLM-driven HTML parsing are computationally expensive and error-prone, particularly when handling dynamic web interfaces and multi-step tasks. We introduce PAFFA (Premeditated Actions For Fast Agents), a method that makes LLMs faster and more accurate in completing tasks on the internet using a novel inference-time technique that requires no task-specific training. PAFFA constructs an ‘Action Library’, leveraging the parametric knowledge of the base LLM to pre-compute browser interaction patterns that generalize across tasks. By strategically re-using LLM inference across tasks – either via ‘Dist-Map’ for task-agnostic identification of key interactive web elements, or ‘Unravel’ for first-encounter, stateful exploration of novel tasks/sites) – PAFFA drastically reduces inference time tokens by 87% while maintaining robust performance (achieving 0.57 vs. 0.50 step accuracy compared to baseline). Further, Unravel’s ability to update its action library based on explorations allows generalization and adaptation to unseen websites. In sum, this work exhibits that LLM reasoning sequences can generalize across prompts, offering a way to scale inference-time techniques for internet-scale data with sublinear token count.
arxiv情報
著者 | Shambhavi Krishna,Zheng Chen,Yuan Ling,Xiaojiang Huang,Yingjie Li,Fan Yang,Xiang Li |
発行日 | 2025-04-04 17:33:53+00:00 |
arxivサイト | arxiv_id(pdf) |