Using the Path of Least Resistance to Explain Deep Networks

要約

広く使用されている公理パスベースの属性法である統合勾配(IG)は、ベースラインから入力までの直線パスに沿ってモデル勾配を統合することにより、入力機能に重要性スコアを割り当てます。
場合によっては効果的ですが、まっすぐな経路が欠陥のある帰属につながる可能性があることを示します。
このホワイトペーパーでは、これらの誤った違いの原因を特定し、入力空間をリーマニアの多様体として扱う代替アプローチを提案します。測地測定に沿って勾配を統合することにより、属性を計算します。
この方法と呼びますGeodeSic Integrated Gradients(ギグ)。
測地線パスを近似するために、2つの手法を紹介します。小さなモデルのためのK-Nearest Neighboursベースのアプローチと、より大きなモデルの確率的変異推論ベースの方法です。
さらに、新しい公理、強い完全性を提案し、IGによって満たされた公理を拡張します。
このプロパティは、帰属方法に望ましいものであり、ギグがそれを満たす唯一の方法であることを示します。
合成データと現実世界の両方のデータの実験を通じて、ギグがIGを含む既存の説明可能性方法を上回ることを実証します。

要約(オリジナル)

Integrated Gradients (IG), a widely used axiomatic path-based attribution method, assigns importance scores to input features by integrating model gradients along a straight path from a baseline to the input. While effective in some cases, we show that straight paths can lead to flawed attributions. In this paper, we identify the cause of these misattributions and propose an alternative approach that treats the input space as a Riemannian manifold, computing attributions by integrating gradients along geodesics. We call this method Geodesic Integrated Gradients (GIG). To approximate geodesic paths, we introduce two techniques: a k-Nearest Neighbours-based approach for smaller models and a Stochastic Variational Inference-based method for larger ones. Additionally, we propose a new axiom, Strong Completeness, extending the axioms satisfied by IG. We show that this property is desirable for attribution methods and that GIG is the only method that satisfies it. Through experiments on both synthetic and real-world data, we demonstrate that GIG outperforms existing explainability methods, including IG.

arxiv情報

著者 Sina Salek,Joseph Enguehard
発行日 2025-02-17 18:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Using the Path of Least Resistance to Explain Deep Networks はコメントを受け付けていません

Personality Structured Interview for Large Language Model Simulation in Personality Research

要約

精神測量の研究者は最近、人間の参加者のプロキシとしての大規模な言語モデル(LLM)の使用を調査しましたが、LLMは人間のような多様性で不均一なデータを生成できず、社会科学研究の進歩において価値を低下させることがよくあります。
これらの課題に対処するために、人格研究における人間の反応をシミュレートするためのツールとして、理論に基づいた性格構造インタビュー(PSI)の可能性を調査しました。
このアプローチでは、シミュレーションは、関心のある性格構成を標的とする微妙な実際の人間のインタビューの成績証明書に基づいています。
代表的なサンプルから357の構造化されたインタビュートランスクリプトの増加セットを提供しました。それぞれが、理論に基づく人格の証拠を収集するために慎重に設計された32の自由回答形式の質問に対する個人の応答を含んでいます。
さらに、心理測定研究に基づいて、LLM生成の心理測定データを体系的に検証するための評価フレームワークを要約しました。
3つの実験の結果は、適切に設計された構造化されたインタビューが、LLMシミュレートされた性格データの人間のような不均一性を改善し、人格関連の行動結果(すなわち、組織の市民権行動と逆生産的な仕事行動)を予測できることを示しています。
さらに、LLMベースのシミュレーションにおける理論に基づいた構造化されたインタビューの役割について説明し、心理測定研究のための人間のようなデータをシミュレートするための構造化されたインタビューを設計するための一般的なフレームワークの概要を説明します。

要約(オリジナル)

Although psychometrics researchers have recently explored the use of large language models (LLMs) as proxies for human participants, LLMs often fail to generate heterogeneous data with human-like diversity, which diminishes their value in advancing social science research. To address these challenges, we explored the potential of the theory-informed Personality Structured Interview (PSI) as a tool for simulating human responses in personality research. In this approach, the simulation is grounded in nuanced real-human interview transcripts that target the personality construct of interest. We have provided a growing set of 357 structured interview transcripts from a representative sample, each containing an individual’s response to 32 open-ended questions carefully designed to gather theory-based personality evidence. Additionally, grounded in psychometric research, we have summarized an evaluation framework to systematically validate LLM-generated psychometric data. Results from three experiments demonstrate that well-designed structured interviews could improve human-like heterogeneity in LLM-simulated personality data and predict personality-related behavioral outcomes (i.e., organizational citizenship behaviors and counterproductive work behavior). We further discuss the role of theory-informed structured interviews in LLM-based simulation and outline a general framework for designing structured interviews to simulate human-like data for psychometric research.

arxiv情報

著者 Pengda Wang,Huiqi Zou,Hanjie Chen,Tianjun Sun,Ziang Xiao,Frederick L. Oswald
発行日 2025-02-17 18:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Personality Structured Interview for Large Language Model Simulation in Personality Research はコメントを受け付けていません

CELL your Model: Contrastive Explanations for Large Language Models

要約

ブラックボックスディープニューラルネットワーク分類モデルの出現により、彼らの決定を説明する必要性が生じました。
ただし、大規模な言語モデル(LLMS)などの生成AIの場合、説明するクラスの予測はありません。
むしろ、LLMが特定のプロンプトに特定の応答を出力する理由を尋ねることができます。
この論文では、単にブラックボックス/クエリアクセスを必要とする対照的な説明方法を提案することにより、この質問に答えます。
私たちの説明は、LLMが特定のプロンプトへの返信を出力することを示唆しています。なぜなら、プロンプトがわずかに変更された場合、LLMはより望ましくない、または元の応答と矛盾する別の応答を与えていたからです。
重要な洞察は、対照的な説明には、ユーザーにとって意味を持つスコアリング関数が必要であり、必ずしも特定の実際の価値のある量ではないということです(つまり、クラスラベル)。
この目的のために、私たちは主なアルゴリズムの貢献である新しい予算のアルゴリズムを提供します。これは、より長いコンテキストに必要なクエリ予算を順守しながら、そのようなスコアリング機能に基づいてコントラストをインテリジェントに作成します。
オープンテキストの生成やチャットボットの会話などの重要な自然言語タスクでの方法の有効性を示します。

要約(オリジナル)

The advent of black-box deep neural network classification models has sparked the need to explain their decisions. However, in the case of generative AI, such as large language models (LLMs), there is no class prediction to explain. Rather, one can ask why an LLM output a particular response to a given prompt. In this paper, we answer this question by proposing a contrastive explanation method requiring simply black-box/query access. Our explanations suggest that an LLM outputs a reply to a given prompt because if the prompt was slightly modified, the LLM would have given a different response that is either less preferable or contradicts the original response. The key insight is that contrastive explanations simply require a scoring function that has meaning to the user and not necessarily a specific real valued quantity (viz. class label). To this end, we offer a novel budgeted algorithm, our main algorithmic contribution, which intelligently creates contrasts based on such a scoring function while adhering to a query budget, necessary for longer contexts. We show the efficacy of our method on important natural language tasks such as open-text generation and chatbot conversations.

arxiv情報

著者 Ronny Luss,Erik Miehling,Amit Dhurandhar
発行日 2025-02-17 18:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | CELL your Model: Contrastive Explanations for Large Language Models はコメントを受け付けていません

Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models

要約

日常のデバイスにおけるマイクの増加の有病率とオンラインサービスへの依存度の高まりにより、キーボードを標的とする音響サイドチャネル攻撃(ASCA)のリスクが増幅されました。
この研究では、そのような攻撃の有効性と適用性を高めるために、深い学習技術、特にビジョン変圧器(VTS)および大規模な言語モデル(LLM)を調査します。
コートネットモデルが最先端のパフォーマンスを達成しているため、以前の研究よりも大幅な改善を提示します。
当社のCoatNetは、スマートフォン(電話)を介して記録されたキーストロークの5.0%の改善と、以前のベンチマークと比較してズームを介して記録されたキーストロークと5.9%を示しています。
また、Coatnetのパフォーマンスを一致させる最高のVTモデルで、トランスアーキテクチャと言語モデルも評価します。
重要な進歩は、実際のシナリオのためのノイズ緩和方法の導入です。
コンテキストの理解のためにLLMを使用することにより、騒々しい環境で誤ったキーストロークを検出して修正し、ASCAのパフォーマンスを向上させます。
さらに、低ランク適応(LORA)を備えた微調整された軽量言語モデルは、67倍のパラメーターを持つヘビー級モデルに同等のパフォーマンスを提供します。
VTSとLLMSのこの統合により、ASCA緩和の実用的な適用性が向上し、実際のシナリオでのASCAとエラー修正に対処するためのこれらのテクノロジーの最初の使用をマークします。

要約(オリジナル)

The increasing prevalence of microphones in everyday devices and the growing reliance on online services have amplified the risk of acoustic side-channel attacks (ASCAs) targeting keyboards. This study explores deep learning techniques, specifically vision transformers (VTs) and large language models (LLMs), to enhance the effectiveness and applicability of such attacks. We present substantial improvements over prior research, with the CoAtNet model achieving state-of-the-art performance. Our CoAtNet shows a 5.0% improvement for keystrokes recorded via smartphone (Phone) and 5.9% for those recorded via Zoom compared to previous benchmarks. We also evaluate transformer architectures and language models, with the best VT model matching CoAtNet’s performance. A key advancement is the introduction of a noise mitigation method for real-world scenarios. By using LLMs for contextual understanding, we detect and correct erroneous keystrokes in noisy environments, enhancing ASCA performance. Additionally, fine-tuned lightweight language models with Low-Rank Adaptation (LoRA) deliver comparable performance to heavyweight models with 67X more parameters. This integration of VTs and LLMs improves the practical applicability of ASCA mitigation, marking the first use of these technologies to address ASCAs and error correction in real-world scenarios.

arxiv情報

著者 Jin Hyun Park,Seyyed Ali Ayati,Yichen Cai
発行日 2025-02-17 18:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS | Improving Acoustic Side-Channel Attacks on Keyboards Using Transformers and Large Language Models はコメントを受け付けていません

LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws

要約

スケーリング法は、モデルサイズ、トークン、および計算の最適なバランスの推定値を提供することにより、大規模な言語モデル(LLMS)の開発を導きます。
より最近では、LLMのパフォーマンスを理解し、改善するための強力なツールとして、事前トレーニングデータセットとダウンストリームタスク全体で損失を関連付ける損失から失われたスケーリング法則が浮上しています。
この作業では、どの要因が損失から失われたスケーリングに強く影響するかを調査します。
私たちの実験では、事前削除データとトークン剤がスケーリングの傾向を決定することが明らかになりました。
対照的に、モデルサイズ、最適化ハイパーパラメーター、さらには、Llamaなどの変圧器ベースのモデルやMambaなどの状態空間モデルなどの重要なアーキテクチャの違いは、影響が限られています。
その結果、開業医は最適なダウンストリームパフォーマンスのために適切な事前トレーニングデータセットを慎重にキュレートする必要がありますが、アーキテクチャやその他の設定はトレーニング効率のために自由に最適化できます。

要約(オリジナル)

Scaling laws guide the development of large language models (LLMs) by offering estimates for the optimal balance of model size, tokens, and compute. More recently, loss-to-loss scaling laws that relate losses across pretraining datasets and downstream tasks have emerged as a powerful tool for understanding and improving LLM performance. In this work, we investigate which factors most strongly influence loss-to-loss scaling. Our experiments reveal that the pretraining data and tokenizer determine the scaling trend. In contrast, model size, optimization hyperparameters, and even significant architectural differences, such as between transformer-based models like Llama and state-space models like Mamba, have limited impact. Consequently, practitioners should carefully curate suitable pretraining datasets for optimal downstream performance, while architectures and other settings can be freely optimized for training efficiency.

arxiv情報

著者 Prasanna Mayilvahanan,Thaddäus Wiedemer,Sayak Mallick,Matthias Bethge,Wieland Brendel
発行日 2025-02-17 18:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws はコメントを受け付けていません

Hypernym Bias: Unraveling Deep Classifier Training Dynamics through the Lens of Class Hierarchy

要約

トレーニング中にクラス間の階層的な関係がどのように進化するかを調べることにより、深い分類器のトレーニングダイナミクスを調査します。
広範な実験を通じて、分類問題の学習プロセスは、ラベルクラスタリングのレンズを通して理解できると主張します。
具体的には、ネットワークはトレーニングの初期段階で高レベル(HyperNym)カテゴリを区別し、より具体的な(仮説)カテゴリを後で学習する傾向があることを観察します。
トレーニング中の機能マニホールドの進化を追跡するための新しいフレームワークを紹介し、階級関係の階層がどのように出現し、ネットワークレイヤー全体に洗練されるかを明らかにします。
私たちの分析は、学習した表現がデータセットのセマンティック構造と密接に一致し、クラスタリングプロセスの定量的な説明を提供することを示しています。
特に、HyperNymラベル空間では、神経崩壊の特定の特性が仮説ラベル空間よりも早く現れることを示しており、学習の初期段階と末端段階の間のギャップを埋めるのに役立つことを示しています。
私たちの調査結果は、深いネットワークで階層学習を促進するメカニズムに関する新しい洞察を提供し、深い学習ダイナミクスを理解するための将来の進歩への道を開いていると考えています。

要約(オリジナル)

We investigate the training dynamics of deep classifiers by examining how hierarchical relationships between classes evolve during training. Through extensive experiments, we argue that the learning process in classification problems can be understood through the lens of label clustering. Specifically, we observe that networks tend to distinguish higher-level (hypernym) categories in the early stages of training, and learn more specific (hyponym) categories later. We introduce a novel framework to track the evolution of the feature manifold during training, revealing how the hierarchy of class relations emerges and refines across the network layers. Our analysis demonstrates that the learned representations closely align with the semantic structure of the dataset, providing a quantitative description of the clustering process. Notably, we show that in the hypernym label space, certain properties of neural collapse appear earlier than in the hyponym label space, helping to bridge the gap between the initial and terminal phases of learning. We believe our findings offer new insights into the mechanisms driving hierarchical learning in deep networks, paving the way for future advancements in understanding deep learning dynamics.

arxiv情報

著者 Roman Malashin,Valeria Yachnaya,Alexander Mullin
発行日 2025-02-17 18:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Hypernym Bias: Unraveling Deep Classifier Training Dynamics through the Lens of Class Hierarchy はコメントを受け付けていません

The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes

要約

否定的な患者の説明とスティグマ化言語は、2つの方法で医療の格差を生み出すことに貢献する可能性があります。
(2)医師が読むと、彼らは将来の患者の視点に悪影響を与える可能性があります。
精神医学では、患者臨床医の治療同盟は臨床結果の主要な決定要因です。
したがって、精神医学的臨床ノートでの言語の使用は、医療の格差を生み出すだけでなく、それらを永続させるかもしれません。
NLPシステムの最近の進歩により、ヘルスケアの差別的言語を検出する努力が促進されました。
しかし、そのような試みは、医療センターとその医師の視点にのみ焦点を合わせています。
医師と非物理学者の両方の視点を考慮することは、臨床ノートで潜在的に有害な言語を特定するためのより翻訳可能なアプローチです。
事前に訓練された大規模な言語モデル(PLMSおよびLLMS)を活用することにより、この作業は、読者の視点に基づいて患者を説明する文で表現された感情を特定することにより、精神医学的ノートの潜在的に有害な言語使用を特徴付けることを目的としています。
精神医学用語を含むマウントシナイヘルスシステムから39文を抽出して、3つのPLMS(Roberta、Gatortron、およびGatortron + Task Adaptation)を微調整し、3つのLLM(GPT-3.5、LLAMAのゼロショットおよび少ないショットICLアプローチを実装しました。
-3.1、およびMistral)は、医師または非医師の視点に従って文章の感情を分類する。
結果は、GPT-3.5が医師の視点に最善を整え、ミストラルが非医師の視点に最適に揃っていることを示しました。
これらの結果は、ノートライティングプロセスを改善するだけでなく、下流分析の計算システムのバイアスの定量化、識別、および削減のために、読者の視点を認識することの重要性を強調しています。

要約(オリジナル)

Negative patient descriptions and stigmatizing language can contribute to generating healthcare disparities in two ways: (1) read by patients, they can harm their trust and engagement with the medical center; (2) read by physicians, they may negatively influence their perspective of a future patient. In psychiatry, the patient-clinician therapeutic alliance is a major determinant of clinical outcomes. Therefore, language usage in psychiatric clinical notes may not only create healthcare disparities, but also perpetuate them. Recent advances in NLP systems have facilitated the efforts to detect discriminatory language in healthcare. However, such attempts have only focused on the perspectives of the medical center and its physicians. Considering both physicians and non-physicians’ point of view is a more translatable approach to identifying potentially harmful language in clinical notes. By leveraging pre-trained and large language models (PLMs and LLMs), this work aims to characterize potentially harmful language usage in psychiatric notes by identifying the sentiment expressed in sentences describing patients based on the reader’s point of view. Extracting 39 sentences from the Mount Sinai Health System containing psychiatric lexicon, we fine-tuned three PLMs (RoBERTa, GatorTron, and GatorTron + Task Adaptation) and implemented zero-shot and few-shot ICL approaches for three LLMs (GPT-3.5, Llama-3.1, and Mistral) to classify the sentiment of the sentences according to the physician or non-physician point of view. Results showed that GPT-3.5 aligned best to physician point of view and Mistral aligned best to non-physician point of view. These results underline the importance of recognizing the reader’s point of view, not only for improving the note writing process, but also for the quantification, identification, and reduction of bias in computational systems for downstream analyses.

arxiv情報

著者 Alissa A. Valentine,Lauren A. Lepow,Lili Chan,Alexander W. Charney,Isotta Landi
発行日 2025-02-17 18:48:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Point of View of a Sentiment: Towards Clinician Bias Detection in Psychiatric Notes はコメントを受け付けていません

Human-LLM Coevolution: Evidence from Academic Writing

要約

Arxiv Paper Abstractsの統計分析により、2024年初頭に指摘された直後に、「Delve」などのChatGptが過剰に使用したと以前に識別されたいくつかの単語の頻度の顕著な低下を報告します。
代わりに、「重要」などのChatGptが好むことは、増加を続けています。
これらの現象は、学術論文の一部の著者が、たとえば出力を選択したり、LLM生成コンテンツに変更を適用することにより、大規模な言語モデル(LLM)の使用を適合させていることを示唆しています。
したがって、このような共進化と人間とLLMの協力は、実際のシナリオで機械で生成されたテキストの検出に追加の課題をもたらします。
単語の頻度を調べることで学術執筆に対するLLMの影響を推定することは実行可能であり、LLMSの嫌悪のために頻度が減少したものを含め、すでに頻繁に採用されている単語にもっと注意を払う必要があります。

要約(オリジナル)

With a statistical analysis of arXiv paper abstracts, we report a marked drop in the frequency of several words previously identified as overused by ChatGPT, such as ‘delve’, starting soon after they were pointed out in early 2024. The frequency of certain other words favored by ChatGPT, such as ‘significant’, has instead kept increasing. These phenomena suggest that some authors of academic papers have adapted their use of large language models (LLMs), for example, by selecting outputs or applying modifications to the LLM-generated content. Such coevolution and cooperation of humans and LLMs thus introduce additional challenges to the detection of machine-generated text in real-world scenarios. Estimating the impact of LLMs on academic writing by examining word frequency remains feasible, and more attention should be paid to words that were already frequently employed, including those that have decreased in frequency due to LLMs’ disfavor.

arxiv情報

著者 Mingmeng Geng,Roberto Trotta
発行日 2025-02-17 18:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.DL, cs.LG | Human-LLM Coevolution: Evidence from Academic Writing はコメントを受け付けていません

LaM-SLidE: Latent Space Modeling of Spatial Dynamical Systems via Linked Entities

要約

生成モデルは、深い学習の最近の進歩を先導しており、動的システムでの軌跡サンプリングに対する強い約束を示しています。
ただし、潜在スペースモデリングパラダイムは画像とビデオ生成を変換しましたが、ほとんどの動的なシステムでは同様のアプローチがより困難です。
そのようなシステムは、化学分子構造から集合的な人間の行動に至るまで、エンティティの相互作用によって説明され、それらを本質的に接続パターンと時間の経過とともにエンティティのトレーサビリティにリンクします。
私たちのアプローチ、Lam-Slide(リンクされたエンティティを介した空間動的システムの潜在スペースモデリング)は、グラフニューラルネットワークの利点、つまりタイムステップ全体のエンティティのトレーサビリティを組み合わせて、画像とビデオの最近の進歩の効率とスケーラビリティを組み合わせています。
潜在的なエンコーダーとデコーダーが凍結され、潜在空間で生成モデリングを可能にする生成。
LAMスライドの中心的なアイデアは、識別子表現(IDS)を導入して、潜在システム表現からエンティティプロパティ、例えばエンティティ座標の取得を可能にし、したがってトレーサビリティを可能にすることです。
実験的には、異なるドメインで、LAMスライドが速度、精度、および一般化可能性の点で好意的に機能することを示します。
(コードはhttps://github.com/ml-jku/lam-slideで入手できます)

要約(オリジナル)

Generative models are spearheading recent progress in deep learning, showing strong promise for trajectory sampling in dynamical systems as well. However, while latent space modeling paradigms have transformed image and video generation, similar approaches are more difficult for most dynamical systems. Such systems — from chemical molecule structures to collective human behavior — are described by interactions of entities, making them inherently linked to connectivity patterns and the traceability of entities over time. Our approach, LaM-SLidE (Latent Space Modeling of Spatial Dynamical Systems via Linked Entities), combines the advantages of graph neural networks, i.e., the traceability of entities across time-steps, with the efficiency and scalability of recent advances in image and video generation, where pre-trained encoder and decoder are frozen to enable generative modeling in the latent space. The core idea of LaM-SLidE is to introduce identifier representations (IDs) to allow for retrieval of entity properties, e.g., entity coordinates, from latent system representations and thus enables traceability. Experimentally, across different domains, we show that LaM-SLidE performs favorably in terms of speed, accuracy, and generalizability. (Code is available at https://github.com/ml-jku/LaM-SLidE)

arxiv情報

著者 Florian Sestak,Artur Toshev,Andreas Fürst,Günter Klambauer,Andreas Mayr,Johannes Brandstetter
発行日 2025-02-17 18:49:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | LaM-SLidE: Latent Space Modeling of Spatial Dynamical Systems via Linked Entities はコメントを受け付けていません

Scaling Autonomous Agents via Automatic Reward Modeling And Planning

要約

大規模な言語モデル(LLM)は、さまざまなテキストジェネレーションタスクにわたって顕著な機能を実証しています。
ただし、LLMは、オンラインショッピング、科学的推論、数学的問題解決など、マルチステップの意思決定と環境フィードバックを必要とする問題と依然として闘っています。
純粋なテキストデータとは異なり、大規模な意思決定データを収集することは困難です。
さらに、多くの強力なLLMはAPIを通じてのみアクセスでき、コストと複雑さのためにエージェントタスクの微調整を妨げます。
LLMエージェントの制限に対処するために、人間の注釈なしで環境から報酬モデルを自動的に学習できるフレームワークを提案します。
このモデルは、LLMエージェントのアクション軌跡を評価し、タスク計画にヒューリスティックを提供するために使用できます。
具体的には、私たちのアプローチでは、1つのLLMベースのエージェントを使用して環境をランダムにナビゲートし、多様なアクション軌跡を生成します。
その後、別のLLMが活用され、タスクの意図を割り当て、各軌道の正しい応答とともに否定的な応答を合成します。
これらのトリプレット(タスク意図、肯定的な応答、否定的な応答)は、アクションの軌跡を採点できる報酬モデルを最適化するためのトレーニングデータとして利用されます。
フレームワークの有効性と一般化可能性は、さまざまなエージェントベンチマークで行われた評価を通じて実証されています。
結論として、提案されたフレームワークは、LLMエージェントの意思決定能力を強化する際の大きな進歩を表しています。
報酬モデルの学習を自動化することにより、データ不足とAPIの制限の課題を克服し、複雑でインタラクティブな環境でのLLMの適用に潜在的に革命をもたらす可能性があります。
この研究は、マルチステップの意思決定を必要とする幅広い現実世界の問題に取り組むことができる、より洗練されたAIエージェントへの道を開きます。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities across a range of text-generation tasks. However, LLMs still struggle with problems requiring multi-step decision-making and environmental feedback, such as online shopping, scientific reasoning, and mathematical problem-solving. Unlike pure text data, collecting large-scale decision-making data is challenging. Moreover, many powerful LLMs are only accessible through APIs, which hinders their fine-tuning for agent tasks due to cost and complexity. To address LLM agents’ limitations, we propose a framework that can automatically learn a reward model from the environment without human annotations. This model can be used to evaluate the action trajectories of LLM agents and provide heuristics for task planning. Specifically, our approach involves employing one LLM-based agent to navigate an environment randomly, generating diverse action trajectories. Subsequently, a separate LLM is leveraged to assign a task intent and synthesize a negative response alongside the correct response for each trajectory. These triplets (task intent, positive response, and negative response) are then utilized as training data to optimize a reward model capable of scoring action trajectories. The effectiveness and generalizability of our framework are demonstrated through evaluations conducted on different agent benchmarks. In conclusion, our proposed framework represents a significant advancement in enhancing LLM agents’ decision-making capabilities. By automating the learning of reward models, we overcome the challenges of data scarcity and API limitations, potentially revolutionizing the application of LLMs in complex and interactive environments. This research paves the way for more sophisticated AI agents capable of tackling a wide range of real-world problems requiring multi-step decision-making.

arxiv情報

著者 Zhenfang Chen,Delin Chen,Rui Sun,Wenjun Liu,Chuang Gan
発行日 2025-02-17 18:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Scaling Autonomous Agents via Automatic Reward Modeling And Planning はコメントを受け付けていません