CoSIL: Software Issue Localization via LLM-Driven Code Repository Graph Searching

要約

大規模な言語モデル(LLMS)は、自律的なソフトウェアエンジニアリングを大幅に進めており、開発者が自動プログラム修復を支援するソフトウェアエンジニアリングエージェントの数が増えています。
問題のローカリゼーションは、正確なパッチ生成の基礎を形成します。
ただし、LLMのコンテキストウィンドウの長さによって引き起こされる制限のため、既存の問題のローカリゼーション方法は、簡潔で効果的なコンテキストと適切に包括的な検索スペースのバランスをとる際の課題に直面しています。
このホワイトペーパーでは、トレーニングやインデックスを作成せずにLLM駆動型でシンプルで強力な機能レベルの発行ローカリゼーション方法であるCosilを紹介します。
COSILは、モジュールコールグラフを介して検索空間を減らし、関数コールグラフを繰り返し検索して関連するコンテキストを取得し、コンテキストを使用して検索方向を制御し、コンテキストを効果的に管理します。
重要なことに、コールグラフは検索中にLLMによって動的に構築され、事前抑制の必要性を排除することです。
実験結果は、COSILがQWEN2.5 Coder 32Bを使用して、それぞれSWE Bench LiteとSWE Benchが検証し、既存の方法を8.6〜98.2%上回る、それぞれ43%と44.6%のトップ1ローカリゼーション成功率を達成したことを示しています。
COSILがパッチ生成段階を導くために適用されると、解決速度はさらに9.3〜31.5%向上します。

要約(オリジナル)

Large language models (LLMs) have significantly advanced autonomous software engineering, leading to a growing number of software engineering agents that assist developers in automatic program repair. Issue localization forms the basis for accurate patch generation. However, because of limitations caused by the context window length of LLMs, existing issue localization methods face challenges in balancing concise yet effective contexts and adequately comprehensive search spaces. In this paper, we introduce CoSIL, an LLM driven, simple yet powerful function level issue localization method without training or indexing. CoSIL reduces the search space through module call graphs, iteratively searches the function call graph to obtain relevant contexts, and uses context pruning to control the search direction and manage contexts effectively. Importantly, the call graph is dynamically constructed by the LLM during search, eliminating the need for pre-parsing. Experiment results demonstrate that CoSIL achieves a Top-1 localization success rate of 43 percent and 44.6 percent on SWE bench Lite and SWE bench Verified, respectively, using Qwen2.5 Coder 32B, outperforming existing methods by 8.6 to 98.2 percent. When CoSIL is applied to guide the patch generation stage, the resolved rate further improves by 9.3 to 31.5 percent.

arxiv情報

著者 Zhonghao Jiang,Xiaoxue Ren,Meng Yan,Wei Jiang,Yong Li,Zhongxin Liu
発行日 2025-03-28 13:36:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | CoSIL: Software Issue Localization via LLM-Driven Code Repository Graph Searching はコメントを受け付けていません

A Causal Framework to Measure and Mitigate Non-binary Treatment Discrimination

要約

アルゴリズムの意思決定システムの公平性研究では、しばしば保釈やローンの承認などの複雑な意思決定プロセスをバイナリ分類タスクに簡素化します。
ただし、これらのアプローチは、そのような決定が本質的にバイナリではないことを見落としています(例えば、保釈またはローンを承認または承認しない)。
また、下流の結果に影響を与える可能性のある非バイナリ治療の決定(保釈条件や融資条件など)(例:ローンの返済や再犯)が含まれます。
この論文では、非バイナリ治療の決定は意思決定プロセスに不可欠であり、意思決定者によって管理されているため、アルゴリズムの意思決定における公平性分析の中心であるべきであると主張します。
公平性分析を拡張し、意思決定者の共変量と治療の決定を明示的に区別する因果フレームワークを提案します。
この仕様により、意思決定者は私たちのフレームワークを使用して、(i)履歴データにおける治療の格差とその下流の影響を測定し、反事実的な推論を使用して、(ii)意思決定を自動化する際の過去の不公平な治療決定の影響を軽減することができます。
私たちのフレームワークを使用して、4つの広く使用されているローン承認データセットを経験的に分析して、非バイナリ治療の決定における潜在的な格差と結果に対する差別的な影響を明らかにし、公平性評価に治療の決定を組み込む必要性を強調しています。
さらに、治療の決定に介入することにより、私たちのフレームワークは、すべての利害関係者に利益をもたらす公正なリスクスコアの推定と(非バイナリ)意思決定プロセスを確保するために、履歴データからの治療差別を効果的に軽減することを示します。

要約(オリジナル)

Fairness studies of algorithmic decision-making systems often simplify complex decision processes, such as bail or loan approvals, into binary classification tasks. However, these approaches overlook that such decisions are not inherently binary (e.g., approve or not approve bail or loan); they also involve non-binary treatment decisions (e.g., bail conditions or loan terms) that can influence the downstream outcomes (e.g., loan repayment or reoffending). In this paper, we argue that non-binary treatment decisions are integral to the decision process and controlled by decision-makers and, therefore, should be central to fairness analyses in algorithmic decision-making. We propose a causal framework that extends fairness analyses and explicitly distinguishes between decision-subjects’ covariates and the treatment decisions. This specification allows decision-makers to use our framework to (i) measure treatment disparity and its downstream effects in historical data and, using counterfactual reasoning, (ii) mitigate the impact of past unfair treatment decisions when automating decision-making. We use our framework to empirically analyze four widely used loan approval datasets to reveal potential disparity in non-binary treatment decisions and their discriminatory impact on outcomes, highlighting the need to incorporate treatment decisions in fairness assessments. Moreover, by intervening in treatment decisions, we show that our framework effectively mitigates treatment discrimination from historical data to ensure fair risk score estimation and (non-binary) decision-making processes that benefit all stakeholders.

arxiv情報

著者 Ayan Majumdar,Deborah D. Kanubala,Kavya Gupta,Isabel Valera
発行日 2025-03-28 14:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Causal Framework to Measure and Mitigate Non-binary Treatment Discrimination はコメントを受け付けていません

Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning

要約

エントロピー誘導シーケンス重み付け(EGSW)を導入します。これは、強化学習ベースの大手言語モデルの微調整のための利点とエントロピーに基づいて、生成された出力に重みを動的に割り当てることにより、探査と露出のトレードオフを強化する新しいアプローチです。
EGSWは、エントロピーの正則化をアドバンテージベースの重み付けと統合して、ポリシーの更新のバランスを取り、高次元の状態空間での効率的な探索を可能にします。
シーケンスにわたって温度スケールのソフトマックスの重み付けを使用することにより、EGSWはトレーニングの安定性を維持しながら、高報酬の高度不確実なステップを優先します。
もともとは、大規模な言語モデル(LLM)の微調整中にグループ相対ポリシーの最適化(GRPO)を改善するために開発されましたが、EGSWは他の強化学習(RL)アルゴリズムに一般化でき、段階的および軌跡ごとの設定の両方で実装できます。
経験的評価は、EGSWがGRPO推論能力を高め、サンプル効率の改善をもたらすことを示しています。
将来の作業では、EGSWの高度なRL方法論への適用を調査します。

要約(オリジナル)

We introduce Entropy-Guided Sequence Weighting (EGSW), a novel approach that enhances the exploration-exploitation tradeoff by dynamically assigning weights to generated outputs based on their advantage and entropy for Reinforcement Learning-based Large Language Model fine-tuning. EGSW integrates entropy regularization with advantage-based weighting to balance policy updates, enabling efficient exploration in high-dimensional state spaces. By employing temperature-scaled softmax weighting over sequences, EGSW prioritizing high-reward, high-uncertainty steps while maintaining training stability. Although originally developed to improve Group Relative Policy Optimization (GRPO) during large language model (LLM) fine-tuning, EGSW is generalizable to other reinforcement learning (RL) algorithms and can be implemented in both step-wise and trajectory-wise settings. Empirical evaluations demonstrate that EGSW enhances GRPO reasoning ability, yielding improvements in sample efficiency. Future work will explore the application of EGSW to advanced RL methodologies.

arxiv情報

著者 Abdullah Vanlioglu
発行日 2025-03-28 14:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Entropy-guided sequence weighting for efficient exploration in RL-based LLM fine-tuning はコメントを受け付けていません

Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey

要約

この調査では、マルチターン会話設定の大規模な言語モデル(LLM)ベースのエージェントの評価方法を調べます。
Prismaにインスパイアされたフレームワークを使用して、250近くの学術源を体系的にレビューし、出版物のさまざまな場所から最先端を獲得し、分析のための強固な基盤を確立しました。
私たちの研究は、2つの相互に関連した分類システムを開発することにより、構造化されたアプローチを提供します。1つは\ emph {何を評価するか}を定義し、もう1つは\ empheを説明する{評価方法}を説明します。
最初の分類法は、マルチターン会話と、タスクの完了、応答品質、ユーザーエクスペリエンス、メモリ、コンテキスト保持、計画とツールの統合など、マルチターン会話とその評価の次元のためのLLMベースのエージェントの重要なコンポーネントを識別します。
これらのコンポーネントは、会話エージェントのパフォーマンスが全体的かつ意味のある方法で評価されることを保証します。
2番目の分類システムは、評価方法に焦点を当てています。
アプローチは、注釈ベースの評価、自動化されたメトリック、人間の評価と定量的尺度を組み合わせたハイブリッド戦略、およびLLMを利用する自己判断方法に分類します。
このフレームワークは、BLEUやルージュスコアなどの言語理解から派生した従来の指標を捉えているだけでなく、マルチターン対話の動的でインタラクティブな性質を反映する高度なテクニックも組み込まれています。

要約(オリジナル)

This survey examines evaluation methods for large language model (LLM)-based agents in multi-turn conversational settings. Using a PRISMA-inspired framework, we systematically reviewed nearly 250 scholarly sources, capturing the state of the art from various venues of publication, and establishing a solid foundation for our analysis. Our study offers a structured approach by developing two interrelated taxonomy systems: one that defines \emph{what to evaluate} and another that explains \emph{how to evaluate}. The first taxonomy identifies key components of LLM-based agents for multi-turn conversations and their evaluation dimensions, including task completion, response quality, user experience, memory and context retention, as well as planning and tool integration. These components ensure that the performance of conversational agents is assessed in a holistic and meaningful manner. The second taxonomy system focuses on the evaluation methodologies. It categorizes approaches into annotation-based evaluations, automated metrics, hybrid strategies that combine human assessments with quantitative measures, and self-judging methods utilizing LLMs. This framework not only captures traditional metrics derived from language understanding, such as BLEU and ROUGE scores, but also incorporates advanced techniques that reflect the dynamic, interactive nature of multi-turn dialogues.

arxiv情報

著者 Shengyue Guan,Haoyi Xiong,Jindong Wang,Jiang Bian,Bin Zhu,Jian-guang Lou
発行日 2025-03-28 14:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey はコメントを受け付けていません

LoRD: Adapting Differentiable Driving Policies to Distribution Shifts

要約

運用ドメイン間の分布シフトは、自動運転車(SDV)の学習モデルの性能に深刻な影響を与える可能性があります。
これは確立された問題ですが、以前の研究では、モーション予測タスクに焦点を当てて、微調整などの素朴なソリューションをほとんど探求しています。
この作業では、予測、計画、および制御からなる微分可能な自律性スタックの新しい適応戦略を探り、閉ループで評価を実行し、壊滅的な忘却の頻繁に見過ごされている問題を調査します。
具体的には、2つのシンプルでありながら効果的な手法を紹介します。低ランクの残留デコーダー(Lord)とマルチタスクの微調整です。
2つの実際の自律駆動データセット(Nuplan、Exid)で実施された3つのモデルにわたる実験を通じて、方法の有効性を実証し、以前のアプローチでのオープンループと閉ループ評価の間の重要なパフォーマンスギャップを強調します。
私たちのアプローチは、標準的な微調整と比較して、最大23.33%の忘却と閉ループのOOD運転スコアを9.93%改善します。

要約(オリジナル)

Distribution shifts between operational domains can severely affect the performance of learned models in self-driving vehicles (SDVs). While this is a well-established problem, prior work has mostly explored naive solutions such as fine-tuning, focusing on the motion prediction task. In this work, we explore novel adaptation strategies for differentiable autonomy stacks consisting of prediction, planning, and control, perform evaluation in closed-loop, and investigate the often-overlooked issue of catastrophic forgetting. Specifically, we introduce two simple yet effective techniques: a low-rank residual decoder (LoRD) and multi-task fine-tuning. Through experiments across three models conducted on two real-world autonomous driving datasets (nuPlan, exiD), we demonstrate the effectiveness of our methods and highlight a significant performance gap between open-loop and closed-loop evaluation in prior approaches. Our approach improves forgetting by up to 23.33% and the closed-loop OOD driving score by 9.93% in comparison to standard fine-tuning.

arxiv情報

著者 Christopher Diehl,Peter Karkus,Sushant Veer,Marco Pavone,Torsten Bertram
発行日 2025-03-28 14:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | LoRD: Adapting Differentiable Driving Policies to Distribution Shifts はコメントを受け付けていません

Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent

要約

確率的勾配降下の挙動は、SGDが純粋にベイジアンの方法でフラクタル次元を説明できるフラクタル景観に効果的に拡散していることを示すことにより、ベイジアン統計に関連していることを示します。
これを行うことにより、SGDは、損失状況のフラクタル構造によって引き起こされるアクセシビリティの制約を説明する修正されたベイジアンサンプラーと見なすことができることを示します。
トレーニング中の重量の拡散を調べることにより、結果を実験的に検証します。
これらの結果は、学習プロセスを決定する要因についての洞察を提供し、SGDと純粋にベイジアンサンプリングがどのように関連しているかという問題に答えているように見えます。

要約(オリジナル)

We show that the behavior of stochastic gradient descent is related to Bayesian statistics by showing that SGD is effectively diffusion on a fractal landscape, where the fractal dimension can be accounted for in a purely Bayesian way. By doing this we show that SGD can be regarded as a modified Bayesian sampler which accounts for accessibility constraints induced by the fractal structure of the loss landscape. We verify our results experimentally by examining the diffusion of weights during training. These results offer insight into the factors which determine the learning process, and seemingly answer the question of how SGD and purely Bayesian sampling are related.

arxiv情報

著者 Max Hennick,Stijn De Baerdemacker
発行日 2025-03-28 14:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Almost Bayesian: The Fractal Dynamics of Stochastic Gradient Descent はコメントを受け付けていません

Hybrid Action Based Reinforcement Learning for Multi-Objective Compatible Autonomous Driving

要約

強化学習(RL)は、自律運転の意思決定と制御の問題を解決する上で優れたパフォーマンスを示しており、これは多様な運転シナリオにますます適用されています。
ただし、運転は多属性の問題であり、特にポリシーの実行とポリシー反復の両方において、現在のRLメソッドの多目的互換性を達成する際の課題につながります。
一方では、単一のアクションタイプを備えた共通アクション空間構造により、柔軟性を促進するか、ポリシーの実行中に大きな動作の変動をもたらします。
一方、多属性加重単一報酬関数は、ポリシーの反復中に特定の目標に対するエージェントの不均衡な注意を払うことになります。
この目的のために、多目的互換性のある自律運転のためのハイブリッドパラメーター化されたアクションを備えた多目的アンサンブル批判的な補強学習方法を提案します。
具体的には、抽象的なガイダンスとコンクリート制御コマンドの両方を組み合わせて、ハイブリッド運転アクションを生成するためにパラメーター化されたアクションスペースが構築されています。
複数の属性の報酬を考慮して、多目的批評家アーキテクチャが構築され、異なる運転目的に同時に焦点を合わせます。
さらに、不確実性に基づく探索戦略が導入され、エージェントが実行可能な運転ポリシーをより速くするのに役立ちます。
シミュレートされた交通環境とHighDデータセットの両方における実験結果は、我々の方法が運転効率、アクションの一貫性、安全性の観点から多目的互換性のある自律運転を実現できることを示しています。
運転の一般的なパフォーマンスが向上し、トレーニング効率が大幅に向上します。

要約(オリジナル)

Reinforcement Learning (RL) has shown excellent performance in solving decision-making and control problems of autonomous driving, which is increasingly applied in diverse driving scenarios. However, driving is a multi-attribute problem, leading to challenges in achieving multi-objective compatibility for current RL methods, especially in both policy execution and policy iteration. On the one hand, the common action space structure with single action type limits driving flexibility or results in large behavior fluctuations during policy execution. On the other hand, the multi-attribute weighted single reward function result in the agent’s disproportionate attention to certain objectives during policy iterations. To this end, we propose a Multi-objective Ensemble-Critic reinforcement learning method with Hybrid Parametrized Action for multi-objective compatible autonomous driving. Specifically, a parameterized action space is constructed to generate hybrid driving actions, combining both abstract guidance and concrete control commands. A multi-objective critics architecture is constructed considering multiple attribute rewards, to ensure simultaneously focusing on different driving objectives. Additionally, uncertainty-based exploration strategy is introduced to help the agent faster approach viable driving policy. The experimental results in both the simulated traffic environment and the HighD dataset demonstrate that our method can achieve multi-objective compatible autonomous driving in terms of driving efficiency, action consistency, and safety. It enhances the general performance of the driving while significantly increasing training efficiency.

arxiv情報

著者 Guizhe Jin,Zhuoren Li,Bo Leng,Wei Han,Lu Xiong,Chen Sun
発行日 2025-03-28 14:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG, cs.RO | Hybrid Action Based Reinforcement Learning for Multi-Objective Compatible Autonomous Driving はコメントを受け付けていません

Robust Offline Imitation Learning Through State-level Trajectory Stitching

要約

模倣学習(IL)は、専門家のデモンストレーションを通じてロボットが視覚運動スキルを獲得できるようにするのに効果的であることが証明されています。
ただし、従来のIL方法は、高品質でしばしば希少な専門家のデータに依存しており、共変量シフトに苦しむことによって制限されています。
これらの課題に対処するために、オフラインILの最近の進歩により、最適でない、ラベルのないデータセットがトレーニングに組み込まれています。
この論文では、タスク関連の軌跡フラグメントと豊富な環境ダイナミクスを活用することにより、混合品質のオフラインデータセットからのポリシー学習を強化するための新しいアプローチを提案します。
具体的には、不完全なデモンストレーションから状態アクションペアを縫う状態ベースの検索フレームワークを紹介し、より多様で有益なトレーニングの軌跡を生成します。
標準のILベンチマークと現実世界のロボットタスクに関する実験結果は、提案された方法が一般化とパフォーマンスの両方を大幅に改善することを示しています。

要約(オリジナル)

Imitation learning (IL) has proven effective for enabling robots to acquire visuomotor skills through expert demonstrations. However, traditional IL methods are limited by their reliance on high-quality, often scarce, expert data, and suffer from covariate shift. To address these challenges, recent advances in offline IL have incorporated suboptimal, unlabeled datasets into the training. In this paper, we propose a novel approach to enhance policy learning from mixed-quality offline datasets by leveraging task-relevant trajectory fragments and rich environmental dynamics. Specifically, we introduce a state-based search framework that stitches state-action pairs from imperfect demonstrations, generating more diverse and informative training trajectories. Experimental results on standard IL benchmarks and real-world robotic tasks showcase that our proposed method significantly improves both generalization and performance.

arxiv情報

著者 Shuze Wang,Yunpeng Mei,Hongjie Cao,Yetian Yuan,Gang Wang,Jian Sun,Jie Chen
発行日 2025-03-28 15:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Robust Offline Imitation Learning Through State-level Trajectory Stitching はコメントを受け付けていません

SafeCast: Risk-Responsive Motion Forecasting for Autonomous Vehicles

要約

正確なモーション予測は、自律運転(AD)システムの安全性と信頼性に不可欠です。
既存の方法は大きな進歩を遂げましたが、多くの場合、明示的な安全性の制約を見落とし、交通エージェント、環境要因、およびモーションダイナミクス間の複雑な相互作用を捉えるのに苦労しています。
これらの課題に対処するために、セーフキャストを提示します。セーフキャストは、安全性を認識した意思決定を不確実性対応の適応性を統合するリスク応答性モーション予測モデルです。
SafeCastは、責任に敏感な安全性(RSS)フレームワークを動きの予測に組み込み、解釈可能な安全規則をエンコードする最初のものです。
堅牢性をさらに高めるために、グラフの注意ネットワークに学習可能なノイズを注入し、現実世界の不確実性をキャプチャし、多様なシナリオ全体で一般化を強化するグラフベースのモジュールであるグラフ不確実性機能(GUF)を導入します。
高速道路、都市、および混合自動経済交通環境をカバーする4つの現実世界のベンチマークデータセット(NGSIM)、高速道路ドローン(HIGHD)、Apolloscape、およびMacao Connected Autonomous Driving(MOCAD)の4つの現実世界のベンチマークデータセットでセーフキャストを評価します。
私たちのモデルは、軽量アーキテクチャと低推論の潜時を維持しながら、最先端の(SOTA)精度を達成し、安全性が批判的な広告システムでのリアルタイムの展開の可能性を強調しています。

要約(オリジナル)

Accurate motion forecasting is essential for the safety and reliability of autonomous driving (AD) systems. While existing methods have made significant progress, they often overlook explicit safety constraints and struggle to capture the complex interactions among traffic agents, environmental factors, and motion dynamics. To address these challenges, we present SafeCast, a risk-responsive motion forecasting model that integrates safety-aware decision-making with uncertainty-aware adaptability. SafeCast is the first to incorporate the Responsibility-Sensitive Safety (RSS) framework into motion forecasting, encoding interpretable safety rules–such as safe distances and collision avoidance–based on traffic norms and physical principles. To further enhance robustness, we introduce the Graph Uncertainty Feature (GUF), a graph-based module that injects learnable noise into Graph Attention Networks, capturing real-world uncertainties and enhancing generalization across diverse scenarios. We evaluate SafeCast on four real-world benchmark datasets–Next Generation Simulation (NGSIM), Highway Drone (HighD), ApolloScape, and the Macao Connected Autonomous Driving (MoCAD)–covering highway, urban, and mixed-autonomy traffic environments. Our model achieves state-of-the-art (SOTA) accuracy while maintaining a lightweight architecture and low inference latency, underscoring its potential for real-time deployment in safety-critical AD systems.

arxiv情報

著者 Haicheng Liao,Hanlin Kong,Bin Rao,Bonan Wang,Chengyue Wang,Guyang Yu,Yuming Huang,Ruru Tang,Chengzhong Xu,Zhenning Li
発行日 2025-03-28 15:38:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | SafeCast: Risk-Responsive Motion Forecasting for Autonomous Vehicles はコメントを受け付けていません

Do LLMs ‘know’ internally when they follow instructions?

要約

これらのモデルは、ユーザーが提供する制約とガイドラインを厳密に順守する必要があるため、指導のフォローは、大きな言語モデル(LLMS)を持つAIエージェントを構築するために重要です。
ただし、LLMSは、単純で明確な指示でさえも従わないことがよくあります。
指導に従う動作を改善し、望ましくない出力を防ぐために、LLMの内部状態がこれらの結果にどのように関連するかをより深く理解することが必要です。
この作業では、LLMSが、指導に従う成功と相関する表現で情報をエンコードしているかどうかを調査します。これは、内部で知っているプロパティです。
私たちの分析は、応答が特定の命令に準拠するかどうかを予測する、命令に従う次元と呼ばれる入力埋め込みスペースの方向を特定します。
このディメンションは、目に見えないタスク全体で十分に一般化されているが、目に見えない命令タイプ全体ではないことがわかります。
この次元に沿って表現を変更すると、応答の質を損なうことなく、ランダムな変更と比較して命令に従う成功率が向上することを実証します。
さらなる調査により、この次元は、タスクや命令の固有の難易度ではなく、プロンプトのフレージングにより密接に関連していることが明らかになりました。
この作業は、LLMSの指導の公開の内部仕組みに関する洞察を提供し、信頼できるLLMエージェントへの道を開いています。

要約(オリジナル)

Instruction-following is crucial for building AI agents with large language models (LLMs), as these models must adhere strictly to user-provided constraints and guidelines. However, LLMs often fail to follow even simple and clear instructions. To improve instruction-following behavior and prevent undesirable outputs, a deeper understanding of how LLMs’ internal states relate to these outcomes is required. In this work, we investigate whether LLMs encode information in their representations that correlate with instruction-following success – a property we term knowing internally. Our analysis identifies a direction in the input embedding space, termed the instruction-following dimension, that predicts whether a response will comply with a given instruction. We find that this dimension generalizes well across unseen tasks but not across unseen instruction types. We demonstrate that modifying representations along this dimension improves instruction-following success rates compared to random changes, without compromising response quality. Further investigation reveals that this dimension is more closely related to the phrasing of prompts rather than the inherent difficulty of the task or instructions. This work provides insight into the internal workings of LLMs’ instruction-following, paving the way for reliable LLM agents.

arxiv情報

著者 Juyeon Heo,Christina Heinze-Deml,Oussama Elachqar,Kwan Ho Ryan Chan,Shirley Ren,Udhay Nallasamy,Andy Miller,Jaya Narain
発行日 2025-03-28 15:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Do LLMs ‘know’ internally when they follow instructions? はコメントを受け付けていません