Learning Survival Distributions with the Asymmetric Laplace Distribution

要約

確率論的生存分析モデルは、一連の共変量を与えられたイベントの将来の発生(時間)の分布を推定しようとしています。
近年、これらのモデルは、離散化を介して生存分布を直接推定することを避ける非パラメトリック仕様を好む。
具体的には、監視された学習を使用して、固定時間に個別のイベントの確率または固定確率(分位)でイベントの時間を推定します。
分位回帰の文献からのアイデアを借用すると、非対称ラプラス分布(ALD)に基づいたパラメトリック生存分析方法を提案します。
この分布により、平均、中央値、モード、バリエーション、分位などの一般的なイベントの概要を閉じることができます。
このモデルは、ALD分布のパラメーター(位置、スケール、および非対称性)を個々のレベルで学習する可能性によって最適化されています。
合成および実世界のデータに関する広範な結果は、提案された方法が、精度、識別、およびキャリブレーションの観点からパラメトリックおよびノンパラメトリックアプローチを上回ることを示しています。

要約(オリジナル)

Probabilistic survival analysis models seek to estimate the distribution of the future occurrence (time) of an event given a set of covariates. In recent years, these models have preferred nonparametric specifications that avoid directly estimating survival distributions via discretization. Specifically, they estimate the probability of an individual event at fixed times or the time of an event at fixed probabilities (quantiles), using supervised learning. Borrowing ideas from the quantile regression literature, we propose a parametric survival analysis method based on the Asymmetric Laplace Distribution (ALD). This distribution allows for closed-form calculation of popular event summaries such as mean, median, mode, variation, and quantiles. The model is optimized by maximum likelihood to learn, at the individual level, the parameters (location, scale, and asymmetry) of the ALD distribution. Extensive results on synthetic and real-world data demonstrate that the proposed method outperforms parametric and nonparametric approaches in terms of accuracy, discrimination and calibration.

arxiv情報

著者 Deming Sheng,Ricardo Henao
発行日 2025-05-06 17:34:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.TH | Learning Survival Distributions with the Asymmetric Laplace Distribution はコメントを受け付けていません

Nonnegative Low-rank Matrix Recovery Can Have Spurious Local Minima

要約

古典的な低ランクマトリックス回復の問題は、制限付き等式プロパティ(RIP)の下で\ emphing {venign nonconvexity}を示すことがよく知られています。ローカル最適化は、グラウンドトゥルースが回復するグローバルな最適に収束することが保証されています。
因子マトリックスが要素ごとの非陰性であると制約されている場合、良性の非コンバクシティが保持され続けているかどうかを調査します – 一般的な実用的要件。
RANK-1非陰謀の真実の単純な設定では、RIP定数$ \ delta = 0 $の完全に観察されたケースに良性の非コンベクシティが保持されることを確認します。
しかし、驚くべきことに、このプロパティは、ランクのオーバーパラメーター化に関係なく、任意の小さなRIP定数$ \ delta \ to0^{+} $を任意に小さなRIP定数で拡張することができません。
この発見は、重要な理論的ギャップを明らかにします。低ランクマトリックス回復の経験的堅牢性を説明するために広く使用されている連続性の引数は、非陰性制約が課されると根本的に分解されます。

要約(オリジナル)

The classical low-rank matrix recovery problem is well-known to exhibit \emph{benign nonconvexity} under the restricted isometry property (RIP): local optimization is guaranteed to converge to the global optimum, where the ground truth is recovered. We investigate whether benign nonconvexity continues to hold when the factor matrices are constrained to be elementwise nonnegative — a common practical requirement. In the simple setting of a rank-1 nonnegative ground truth, we confirm that benign nonconvexity holds in the fully-observed case with RIP constant $\delta=0$. Surprisingly, however, this property fails to extend to the partially-observed case with any arbitrarily small RIP constant $\delta\to0^{+}$, irrespective of rank overparameterization. This finding exposes a critical theoretical gap: the continuity argument widely used to explain the empirical robustness of low-rank matrix recovery fundamentally breaks down once nonnegative constraints are imposed.

arxiv情報

著者 Richard Y. Zhang
発行日 2025-05-06 17:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Nonnegative Low-rank Matrix Recovery Can Have Spurious Local Minima はコメントを受け付けていません

Sustainable Smart Farm Networks: Enhancing Resilience and Efficiency with Decision Theory-Guided Deep Reinforcement Learning

要約

ソーラーセンサーベースの監視システムは、センサーテクノロジー、インターネット、エッジおよびクラウドコンピューティングを統合することで、農場管理と動物福祉を促進する重要な農業革新となっています。
ただし、これらのシステムのサイバー攻撃に対する回復力と、動的で制約されたエネルギー供給に対する適応性は、ほとんど未踏のままです。
これらの課題に対処するために、さまざまなサイバーおよび敵対的な脅威の下で高品質の動物の監視を維持するように設計された持続可能なスマートファームネットワークを提案します。
私たちのアプローチは、監視の有効性とエネルギー効率の両方を最大化する最適なポリシーを考案するために、ディープ補強学習(DRL)を利用しています。
DRLの遅い収束という固有の課題を克服するために、転送学習(TL)と決定理論(DT)を統合して、学習プロセスを加速します。
DT誘導戦略を組み込むことにより、監視の品質とエネルギーの持続可能性を最適化し、同等のパフォーマンス報酬を達成しながらトレーニング時間を大幅に短縮します。
私たちの実験結果は、DT誘導DRLがTL強化DRLモデルを上回り、システムのパフォーマンスを改善し、トレーニングランタイムを47.5%削減することを証明しています。

要約(オリジナル)

Solar sensor-based monitoring systems have become a crucial agricultural innovation, advancing farm management and animal welfare through integrating sensor technology, Internet-of-Things, and edge and cloud computing. However, the resilience of these systems to cyber-attacks and their adaptability to dynamic and constrained energy supplies remain largely unexplored. To address these challenges, we propose a sustainable smart farm network designed to maintain high-quality animal monitoring under various cyber and adversarial threats, as well as fluctuating energy conditions. Our approach utilizes deep reinforcement learning (DRL) to devise optimal policies that maximize both monitoring effectiveness and energy efficiency. To overcome DRL’s inherent challenge of slow convergence, we integrate transfer learning (TL) and decision theory (DT) to accelerate the learning process. By incorporating DT-guided strategies, we optimize monitoring quality and energy sustainability, significantly reducing training time while achieving comparable performance rewards. Our experimental results prove that DT-guided DRL outperforms TL-enhanced DRL models, improving system performance and reducing training runtime by 47.5%.

arxiv情報

著者 Dian Chen,Zelin Wan,Dong Sam Ha,Jin-Hee Cho
発行日 2025-05-06 17:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA | Sustainable Smart Farm Networks: Enhancing Resilience and Efficiency with Decision Theory-Guided Deep Reinforcement Learning はコメントを受け付けていません

Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice

要約

人間と大規模な言語モデル(LLM)の行動における観察された類似性は、研究者がLLMを人間の認知のモデルとして使用する可能性を考慮するように促しました。
ただし、LLMSを正当に認知モデルと見なす前に、いくつかの重要な課題に対処する必要があります。
たとえば、LLMは、人間が通常遭遇するよりもはるかに多くのデータについて訓練されており、特定の認知タスクで人間のデータについて直接訓練されているか、人間の好みと整合している可能性があります。
その結果、これらの行動類似性の起源はよく理解されていません。
この論文では、認知モデルとしてLLMの有用性を高める新しい方法を提案します。
このアプローチには、(i)LLMと合理的なエージェントの両方が認知問題を解決するために習得する必要がある計算的に同等のタスクを活用し、(ii)LLMが人間のような行動を示すために必要な特定のタスク分布を調べることが含まれます。
このアプローチは、重要な計算的に同等のタスクが期待値計算の算術である場合、意思決定、特にリスクがあり、時代間選択の選択に適用します。
私たちは、算術-GPTと呼ばれる生態学的に有効な算術データセットで事前に処理されたLLMが、多くの従来の認知モデルよりも人間の行動をよりよく予測することを示しています。
生態学的に有効な算術データセットでのLLMを事前に除去することは、これらのモデルと人間の意思決定との間に強い対応を生み出すのに十分です。
また、我々の結果は、認知モデルとして使用されるLLMは、事前トレーニングデータのアブレーション研究を介して慎重に調査する必要があることを示唆しています。

要約(オリジナル)

The observed similarities in the behavior of humans and Large Language Models (LLMs) have prompted researchers to consider the potential of using LLMs as models of human cognition. However, several significant challenges must be addressed before LLMs can be legitimately regarded as cognitive models. For instance, LLMs are trained on far more data than humans typically encounter, and may have been directly trained on human data in specific cognitive tasks or aligned with human preferences. Consequently, the origins of these behavioral similarities are not well understood. In this paper, we propose a novel way to enhance the utility of LLMs as cognitive models. This approach involves (i) leveraging computationally equivalent tasks that both an LLM and a rational agent need to master for solving a cognitive problem and (ii) examining the specific task distributions required for an LLM to exhibit human-like behaviors. We apply this approach to decision-making — specifically risky and intertemporal choice — where the key computationally equivalent task is the arithmetic of expected value calculations. We show that an LLM pretrained on an ecologically valid arithmetic dataset, which we call Arithmetic-GPT, predicts human behavior better than many traditional cognitive models. Pretraining LLMs on ecologically valid arithmetic datasets is sufficient to produce a strong correspondence between these models and human decision-making. Our results also suggest that LLMs used as cognitive models should be carefully investigated via ablation studies of the pretraining data.

arxiv情報

著者 Jian-Qiao Zhu,Haijiang Yan,Thomas L. Griffiths
発行日 2025-05-06 01:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, econ.GN, q-fin.EC | Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice はコメントを受け付けていません

Incoherent Probability Judgments in Large Language Models

要約

次の言葉の予測のために訓練されたオートレーフレーフラージランゲージモデル(LLMS)は、コヒーレントテキストの作成において顕著な習熟度を示しています。
しかし、彼らは首尾一貫した確率判断を形成することに等しく熟達していますか?
確率的アイデンティティと繰り返し判断を使用して、LLMSによって行われた確率判断の一貫性を評価します。
我々の結果は、これらのモデルによって生成された判断がしばしば一貫性がなく、確率理論の規則から人間のような系統的逸脱を示すことを示しています。
さらに、同じ出来事を判断するよう促されたとき、LLMSによって生成された確率判断の平均分散関係は、人間で見られるような逆U字型を示しています。
これらの合理性からの逸脱は、自己回帰LLMを暗黙のベイジアン推論にリンクし、人間の確率判断のベイジアンサンプラーモデルと類似していることによって説明できることを提案します。

要約(オリジナル)

Autoregressive Large Language Models (LLMs) trained for next-word prediction have demonstrated remarkable proficiency at producing coherent text. But are they equally adept at forming coherent probability judgments? We use probabilistic identities and repeated judgments to assess the coherence of probability judgments made by LLMs. Our results show that the judgments produced by these models are often incoherent, displaying human-like systematic deviations from the rules of probability theory. Moreover, when prompted to judge the same event, the mean-variance relationship of probability judgments produced by LLMs shows an inverted-U-shaped like that seen in humans. We propose that these deviations from rationality can be explained by linking autoregressive LLMs to implicit Bayesian inference and drawing parallels with the Bayesian Sampler model of human probability judgments.

arxiv情報

著者 Jian-Qiao Zhu,Thomas L. Griffiths
発行日 2025-05-06 01:43:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Incoherent Probability Judgments in Large Language Models はコメントを受け付けていません

The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation

要約

大規模なデータセットで訓練されたテキストツービデオ(T2V)生成モデルの進化は、大幅な進歩によってマークされています。
ただし、入力プロンプトへのT2V生成モデルの感度は、生成結果に影響を与える際の迅速な設計の重要な役割を強調しています。
以前の研究では、主に大規模な言語モデル(LLM)に依存して、ユーザーが提供するプロンプトをトレーニングプロンプトの配布と整列させていますが、プロンプトの語彙と文の構造ニュアンスを含む調整されたガイダンスはありません。
この目的のために、新しい検索された迅速な最適化フレームワークであるRapoを紹介します。
LLMで生成されたプロンプトによって生成される潜在的な不正確さと曖昧な詳細に対処するため。
RAPOは、二重最適化ブランチを介して素朴なプロンプトを改良し、T2V生成の優れたプロンプトを選択します。
最初のBranchは、学習したリレーショナルグラフから抽出された多様な修飾子を使用してユーザープロンプトを増強し、微調整されたLLMを介してトレーニングプロンプトの形式に合わせて調整します。
逆に、2番目のブランチは、明確に定義された命令セットに従って、事前に訓練されたLLMを使用して素朴なプロンプトを書き直します。
広範な実験は、RAPOが生成されたビデオの静的および動的な寸法の両方を効果的に強化し、ユーザーが提供するプロンプトのプロンプト最適化の重要性を実証できることを示しています。

要約(オリジナル)

The evolution of Text-to-video (T2V) generative models, trained on large-scale datasets, has been marked by significant progress. However, the sensitivity of T2V generative models to input prompts highlights the critical role of prompt design in influencing generative outcomes. Prior research has predominantly relied on Large Language Models (LLMs) to align user-provided prompts with the distribution of training prompts, albeit without tailored guidance encompassing prompt vocabulary and sentence structure nuances. To this end, we introduce RAPO, a novel Retrieval-Augmented Prompt Optimization framework. In order to address potential inaccuracies and ambiguous details generated by LLM-generated prompts. RAPO refines the naive prompts through dual optimization branches, selecting the superior prompt for T2V generation. The first branch augments user prompts with diverse modifiers extracted from a learned relational graph, refining them to align with the format of training prompts via a fine-tuned LLM. Conversely, the second branch rewrites the naive prompt using a pre-trained LLM following a well-defined instruction set. Extensive experiments demonstrate that RAPO can effectively enhance both the static and dynamic dimensions of generated videos, demonstrating the significance of prompt optimization for user-provided prompts.

arxiv情報

著者 Bingjie Gao,Xinyu Gao,Xiaoxue Wu,Yujie Zhou,Yu Qiao,Li Niu,Xinyuan Chen,Yaohui Wang
発行日 2025-05-06 02:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation はコメントを受け付けていません

Personalization of Large Language Models: A Survey

要約

大規模な言語モデル(LLMS)のパーソナライズは、幅広いアプリケーションで最近ますます重要になっています。
重要性と最近の進歩にもかかわらず、パーソナライズされたLLMに関する既存の作業のほとんどは、(a)パーソナライズされたテキスト生成または(b)推奨システムなどのパーソナライズ関連のダウンストリームアプリケーションのLLMを活用することに完全に焦点を合わせています。
この作業では、パーソナライズされたLLM使用に関する分類を導入し、重要な違いと課題を要約することにより、これら2つの別々のメイン方向のギャップを初めて埋めます。
LLMのパーソナライズの概念を統合および拡大するパーソナライズされたLLMの基礎の形式化を提供し、パーソナライズされたLLMのパーソナライズ、使用、およびデシデラタの新しい側面を定義および議論します。
次に、パーソナライズ、パーソナライズテクニック、データセット、評価方法、およびパーソナライズされたLLMSのアプリケーションの粒度のための体系的な分類法を提案することにより、これらの多様な分野と使用シナリオ全体の文献を統一します。
最後に、対処されていない課題と重要な開かれた問題を強調します。
提案された分類法を使用して最近の研究を統合して調査することにより、LLMSにおける既存の文献とLLMSのさまざまなパーソナライズの側面に関する明確なガイドを提供し、研究者と実践者の両方に力を与えることを目指しています。

要約(オリジナル)

Personalization of Large Language Models (LLMs) has recently become increasingly important with a wide range of applications. Despite the importance and recent progress, most existing works on personalized LLMs have focused either entirely on (a) personalized text generation or (b) leveraging LLMs for personalization-related downstream applications, such as recommendation systems. In this work, we bridge the gap between these two separate main directions for the first time by introducing a taxonomy for personalized LLM usage and summarizing the key differences and challenges. We provide a formalization of the foundations of personalized LLMs that consolidates and expands notions of personalization of LLMs, defining and discussing novel facets of personalization, usage, and desiderata of personalized LLMs. We then unify the literature across these diverse fields and usage scenarios by proposing systematic taxonomies for the granularity of personalization, personalization techniques, datasets, evaluation methods, and applications of personalized LLMs. Finally, we highlight challenges and important open problems that remain to be addressed. By unifying and surveying recent research using the proposed taxonomies, we aim to provide a clear guide to the existing literature and different facets of personalization in LLMs, empowering both researchers and practitioners.

arxiv情報

著者 Zhehao Zhang,Ryan A. Rossi,Branislav Kveton,Yijia Shao,Diyi Yang,Hamed Zamani,Franck Dernoncourt,Joe Barrow,Tong Yu,Sungchul Kim,Ruiyi Zhang,Jiuxiang Gu,Tyler Derr,Hongjie Chen,Junda Wu,Xiang Chen,Zichao Wang,Subrata Mitra,Nedim Lipka,Nesreen Ahmed,Yu Wang
発行日 2025-05-06 03:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Personalization of Large Language Models: A Survey はコメントを受け付けていません

Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement

要約

検索された生成(RAG)は、外部ソースから関連するドキュメントを取得し、それらをコンテキストに組み込むことにより、大規模な言語モデル(LLM)を強化します。
事実上のテキストを提供することで信頼性を向上させますが、コンテキストの長さが増加するにつれて推論コストが大幅に増加し、主にLLMSの対応するパラメトリック知識の欠如によって引き起こされるRAG幻覚の挑戦的な問題を導入します。
効率的な解決策は、テスト時にLLMの知識を強化することです。
パラメトリックRAG(PRAG)は、テスト時間の知識強化を実行するためにLLMSパラメーターにドキュメントを埋め込み、オフライントレーニングを通じて推論コストを効果的に削減することにより、これに対処します。
ただし、その高いトレーニングとストレージコストは、限られた一般化能力とともに、実際の採用を大幅に制限しています。
これらの課題に対処するために、軽量パラメーター翻訳モデルを活用してドキュメントをパラメトリック知識に効率的に変換する新しいフレームワークである動的なパラメトリックラグ(DYPRAG)を提案します。
DyPragは、推論、トレーニング、およびストレージコストを削減するだけでなく、パラメトリックな知識を動的に生成し、LLMSの知識をシームレスに強化し、テスト時にプラグアンドプレイの方法で知識の競合を解決します。
複数のデータセットでの広範な実験は、DYPRAGの有効性と一般化能力を示しており、優れた知識の融合を可能にし、実際のアプリケーションでぼろぼろの幻覚を軽減する強力で実用的なぼろきれパラダイムを提供します。
私たちのコードは、https://github.com/tre1oung/dypragで入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) enhances large language models (LLMs) by retrieving relevant documents from external sources and incorporating them into the context. While it improves reliability by providing factual texts, it significantly increases inference costs as context length grows and introduces challenging issue of RAG hallucination, primarily caused by the lack of corresponding parametric knowledge in LLMs. An efficient solution is to enhance the knowledge of LLMs at test-time. Parametric RAG (PRAG) addresses this by embedding document into LLMs parameters to perform test-time knowledge enhancement, effectively reducing inference costs through offline training. However, its high training and storage costs, along with limited generalization ability, significantly restrict its practical adoption. To address these challenges, we propose Dynamic Parametric RAG (DyPRAG), a novel framework that leverages a lightweight parameter translator model to efficiently convert documents into parametric knowledge. DyPRAG not only reduces inference, training, and storage costs but also dynamically generates parametric knowledge, seamlessly enhancing the knowledge of LLMs and resolving knowledge conflicts in a plug-and-play manner at test-time. Extensive experiments on multiple datasets demonstrate the effectiveness and generalization capabilities of DyPRAG, offering a powerful and practical RAG paradigm which enables superior knowledge fusion and mitigates RAG hallucination in real-world applications. Our code is available at https://github.com/Trae1ounG/DyPRAG.

arxiv情報

著者 Yuqiao Tan,Shizhu He,Huanxuan Liao,Jun Zhao,Kang Liu
発行日 2025-05-06 03:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Dynamic Parametric Retrieval Augmented Generation for Test-time Knowledge Enhancement はコメントを受け付けていません

Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech

要約

目的:音声明瞭度は、ダイサルリアの評価と管理における重要な結果ですが、ほとんどの研究と臨床慣行は英語に焦点を当てており、言語全体の適用性を制限しています。
この解説では、概念的なフレームワークと、それがどのように実装できるかのデモンストレーションを紹介します – 人工知能(AI)をレバレッジ化して、ダンガージ横断的な視認性評価のダイナリスリックスピーチを前進させます。
方法:ダイサルトリック音声を音響音量化表現にコードする普遍的な音声モデルで構成される2層の概念的なフレームワークを提案し、その後、ターゲット言語の音韻または韻律構造内のこれらの表現を解釈する言語固有の明瞭度評価モデルが続きます。
さらに、データ不足、注釈の複雑さ、およびダイサルトリックスピーチに関する限られた言語洞察を含む、ダイナリクロススターのスピーチの障壁の障壁を特定し、これらの課題を克服するための潜在的なAI駆動型ソリューションの概要を示します。
結論:ダンガージ横断的な表現性評価の前進は、ダイサルトリック音声の評価には、効率的でスケーラブルなモデルが必要でありながら、正確で言語に敏感な評価を確保するための言語規則によって制約されているモデルが必要です。
AIの最近の進歩は、この統合をサポートするための基礎ツールを提供し、一般化可能な言語的に情報に基づいた評価フレームワークに向けて将来の方向を形成します。

要約(オリジナル)

Purpose: Speech intelligibility is a critical outcome in the assessment and management of dysarthria, yet most research and clinical practices have focused on English, limiting their applicability across languages. This commentary introduces a conceptual framework–and a demonstration of how it can be implemented–leveraging artificial intelligence (AI) to advance cross-language intelligibility assessment of dysarthric speech. Method: We propose a two-tiered conceptual framework consisting of a universal speech model that encodes dysarthric speech into acoustic-phonetic representations, followed by a language-specific intelligibility assessment model that interprets these representations within the phonological or prosodic structures of the target language. We further identify barriers to cross-language intelligibility assessment of dysarthric speech, including data scarcity, annotation complexity, and limited linguistic insights into dysarthric speech, and outline potential AI-driven solutions to overcome these challenges. Conclusion: Advancing cross-language intelligibility assessment of dysarthric speech necessitates models that are both efficient and scalable, yet constrained by linguistic rules to ensure accurate and language-sensitive assessment. Recent advances in AI provide the foundational tools to support this integration, shaping future directions toward generalizable and linguistically informed assessment frameworks.

arxiv情報

著者 Eunjung Yeo,Julie Liss,Visar Berisha,David Mortensen
発行日 2025-05-06 05:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech はコメントを受け付けていません

LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications

要約

VLMベースのWebエージェントアプリケーション用のオープンソーススイートであるLiteWebagentを紹介します。
当社のフレームワークは、最小限のサーバーレスバックエンド構成、直感的なユーザーおよびブラウザインターフェイス、およびエージェントの計画、メモリ、ツリー検索における拡張可能な研究機能を組み合わせた制作対応ソリューションを使用して、Webエージェントエコシステムの重要なギャップに対処します。
コアLiteWebagentエージェントフレームワークについては、再帰関数呼び出しを使用してシンプルでありながら効果的なベースラインを実装し、分離したアクションの生成とアクションの接地を提供しました。
さらに、エージェント計画、エージェントワークフローメモリ、ツリー検索などの高度な研究コンポーネントをモジュール式で拡張可能な方法で統合します。
次に、LiteWebagentエージェントフレームワークをFrontEndとBackEndと展開したシステムとして2つの形式で展開します。(1)プロダクションVercelベースのWebアプリケーションを統合します。これは、エージェント制御されたリモートブラウザーをユーザーに提供します。
LiteWebagentフレームワークはhttps://github.com/pathonai/litewebagentで入手でき、https://lite-web-agent.vercel.app/にフロントエンドが展開されています。

要約(オリジナル)

We introduce LiteWebAgent, an open-source suite for VLM-based web agent applications. Our framework addresses a critical gap in the web agent ecosystem with a production-ready solution that combines minimal serverless backend configuration, intuitive user and browser interfaces, and extensible research capabilities in agent planning, memory, and tree search. For the core LiteWebAgent agent framework, we implemented a simple yet effective baseline using recursive function calling, providing with decoupled action generation and action grounding. In addition, we integrate advanced research components such as agent planning, agent workflow memory, and tree search in a modular and extensible manner. We then integrate the LiteWebAgent agent framework with frontend and backend as deployed systems in two formats: (1) a production Vercel-based web application, which provides users with an agent-controlled remote browser, (2) a Chrome extension leveraging LiteWebAgent’s API to control an existing Chrome browser via CDP (Chrome DevTools Protocol). The LiteWebAgent framework is available at https://github.com/PathOnAI/LiteWebAgent, with deployed frontend at https://lite-web-agent.vercel.app/.

arxiv情報

著者 Danqing Zhang,Balaji Rama,Jingyi Ni,Shiying He,Fu Zhao,Kunyu Chen,Arnold Chen,Junyu Cao
発行日 2025-05-06 06:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications はコメントを受け付けていません