Structure-Aligned Protein Language Model

要約

タンパク質言語モデル(PLMS)は、さまざまな下流タスクで優れている広大なタンパク質シーケンスデータベースで事前に訓練されていますが、多くの生物学的アプリケーションに不可欠な構造知識がありません。
これに対処するために、潜在的なレベルの対照学習タスクを通じて、事前に訓練されたタンパク質グラフニューラルネットワーク(PGNNS)からPLMSに構造的洞察を統合します。
このタスクは、PLMSからの残基表現を複数のタンパク質のPGNNからのものと並べ、PLMをタンパク質間構造知識を濃縮します。
さらに、PLMSを最適化して構造トークンを予測することにより、タンパク質内構造知識を注入する物理レベルのタスクを組み込みます。
提案されているデュアルタスクフレームワークには、タンパク質間およびタンパク質内構造知識の両方がPLMSに効果的に組み込まれています。
PDBのタンパク質構造の品質の変動性を考えると、さらに高品質の構造で訓練された小さなモデルを使用して、PLMが学習するための信頼性が高いが挑戦的な残基損失を選択する残留損失選択モジュールをさらに導入します。
Structure Alignmentメソッドを最先端のESM2に適用し、ESM2接触予測の12.7%の増加を含む、幅広いタスクにわたって顕著なパフォーマンスの向上を結果を増幅します。
データ、コード、および結果のSAESM2およびSaamplifyモデルは、顔を抱きしめてリリースされます。

要約(オリジナル)

Protein language models (pLMs) pre-trained on vast protein sequence databases excel at various downstream tasks but lack the structural knowledge essential for many biological applications. To address this, we integrate structural insights from pre-trained protein graph neural networks (pGNNs) into pLMs through a latent-level contrastive learning task. This task aligns residue representations from pLMs with those from pGNNs across multiple proteins, enriching pLMs with inter-protein structural knowledge. Additionally, we incorporate a physical-level task that infuses intra-protein structural knowledge by optimizing pLMs to predict structural tokens. The proposed dual-task framework effectively incorporates both inter-protein and intra-protein structural knowledge into pLMs. Given the variability in the quality of protein structures in PDB, we further introduce a residue loss selection module, which uses a small model trained on high-quality structures to select reliable yet challenging residue losses for the pLM to learn. Applying our structure alignment method to the state-of-the-art ESM2 and AMPLIFY results in notable performance gains across a wide range of tasks, including a 12.7% increase in ESM2 contact prediction. The data, code, and resulting SaESM2 and SaAMPLIFY models will be released on Hugging Face.

arxiv情報

著者 Can Chen,David Heurtel-Depeiges,Robert M. Vernon,Christopher James Langmead,Yoshua Bengio,Quentin Fournier
発行日 2025-05-22 16:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Structure-Aligned Protein Language Model はコメントを受け付けていません

Identifying, Evaluating, and Mitigating Risks of AI Thought Partnerships

要約

人工知能(AI)システムは、歴史的に、狭く定義されたタスクを実行するツールとして使用されてきました。
しかし、AIの最近の進歩は、問題の概念化からブレインストーミングソリューションまで、複雑な推論で真に人間と協力する新しいクラスのモデルの可能性を解き放ちました。
このようなAIは、パートナーが斬新な形式のコラボレーションと拡張認知を有効にすることを可能にしましたが、それらはまた、典型的なAIツールとエージェントのリスクを超えて大きなリスクをもたらします。
この解説では、共同認知(RISC)から生じるリアルタイム、個人、社会的リスクなど、複数のレベルの分析でリスクを特定する新しいフレームワークを通じて、AI思想パートナーのリスクを体系的に特定します。
このフレームワークを活用して、リスク評価のために具体的なメトリックを提案し、最終的に開発者と政策立案者に特定の緩和戦略を提案します。
AIがパートナーが増殖し続けているため、これらの戦略は大きな害を防ぎ、人間が生産的な思考パートナーシップから積極的に利益を得ることを保証するのに役立ちます。

要約(オリジナル)

Artificial Intelligence (AI) systems have historically been used as tools that execute narrowly defined tasks. Yet recent advances in AI have unlocked possibilities for a new class of models that genuinely collaborate with humans in complex reasoning, from conceptualizing problems to brainstorming solutions. Such AI thought partners enable novel forms of collaboration and extended cognition, yet they also pose major risks-including and beyond risks of typical AI tools and agents. In this commentary, we systematically identify risks of AI thought partners through a novel framework that identifies risks at multiple levels of analysis, including Real-time, Individual, and Societal risks arising from collaborative cognition (RISc). We leverage this framework to propose concrete metrics for risk evaluation, and finally suggest specific mitigation strategies for developers and policymakers. As AI thought partners continue to proliferate, these strategies can help prevent major harms and ensure that humans actively benefit from productive thought partnerships.

arxiv情報

著者 Kerem Oktar,Katherine M. Collins,Jose Hernandez-Orallo,Diane Coyle,Stephen Cave,Adrian Weller,Ilia Sucholutsky
発行日 2025-05-22 16:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Identifying, Evaluating, and Mitigating Risks of AI Thought Partnerships はコメントを受け付けていません

Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation

要約

アクティブなサウンド変更のための新しいパラダイムを紹介します:アクティブな音声強化(ASE)。
アクティブなノイズキャンセル(ANC)アルゴリズムは、外部干渉の抑制に焦点を当てていますが、ASEは音声信号を積極的に形作ることでさらに進みます – 不要なノイズ成分を減衰させ、音声関連周波数を増幅して、明瞭度と知覚品質を向上させます。
これを有効にするために、干渉抑制と信号濃縮を共同で最適化するように設計されたタスク固有の損失関数とともに、新しい変圧器マンバベースのアーキテクチャを提案します。
私たちの方法は、除去、逆方向、および削減など、複数の音声処理タスクにわたって既存のベースラインを上回り、挑戦的な音響環境におけるアクティブなターゲット変調の有効性を示しています。

要約(オリジナル)

We introduce a new paradigm for active sound modification: Active Speech Enhancement (ASE). While Active Noise Cancellation (ANC) algorithms focus on suppressing external interference, ASE goes further by actively shaping the speech signal — both attenuating unwanted noise components and amplifying speech-relevant frequencies — to improve intelligibility and perceptual quality. To enable this, we propose a novel Transformer-Mamba-based architecture, along with a task-specific loss function designed to jointly optimize interference suppression and signal enrichment. Our method outperforms existing baselines across multiple speech processing tasks — including denoising, dereverberation, and declipping — demonstrating the effectiveness of active, targeted modulation in challenging acoustic environments.

arxiv情報

著者 Ofir Yaish,Yehuda Mishaly,Eliya Nachmani
発行日 2025-05-22 17:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS | Active Speech Enhancement: Active Speech Denoising Decliping and Deveraberation はコメントを受け付けていません

WGFormer: An SE(3)-Transformer Driven by Wasserstein Gradient Flows for Molecular Ground-State Conformation Prediction

要約

分子基質立体構造(すなわち、エネルギー最大の立体構造)を予測することは、分子ドッキングや特性予測などの多くの化学用途にとって重要です。
この問題を解決する場合、古典的なエネルギーベースのシミュレーションは時間がかかりますが、既存の学習ベースの方法は計算効率に利点がありますが、精度と解釈可能性を犠牲にします。
この作業では、エネルギーベースのシミュレーションと学習ベースの戦略を橋渡しするための斬新で効果的な方法を提案します。これは、wgformerと呼ばれるワッサースタイングラデーションフロー駆動型のSE(3)トランスフォーマーを設計および学習し、基底状態の立体構造予測のために設計および学習します。
具体的には、私たちの方法は、このタスクに自動エンコードフレームワーク内で取り組みます。これは、提案されたWGFORMERによる低品質の立体構造と、MLPによる対応するグラウンドステート立体構造をデコードします。
Wgformerのアーキテクチャは、Wasserstein勾配の流れに対応しています。原子の潜在混合モデルで定義されたエネルギー関数を最小化することにより、立体構造を最適化し、それによってパフォーマンスと解釈性を大幅に改善します。
広範な実験は、私たちの方法が一貫して最先端の競合他社よりも優れていることを示しており、地下鉄の立体構造を予測するための新しい洞察力のあるパラダイムを提供します。

要約(オリジナル)

Predicting molecular ground-state conformation (i.e., energy-minimized conformation) is crucial for many chemical applications such as molecular docking and property prediction. Classic energy-based simulation is time-consuming when solving this problem, while existing learning-based methods have advantages in computational efficiency but sacrifice accuracy and interpretability. In this work, we propose a novel and effective method to bridge the energy-based simulation and the learning-based strategy, which designs and learns a Wasserstein gradient flow-driven SE(3)-Transformer, called WGFormer, for ground-state conformation prediction. Specifically, our method tackles this task within an auto-encoding framework, which encodes low-quality conformations by the proposed WGFormer and decodes corresponding ground-state conformations by an MLP. The architecture of WGFormer corresponds to Wasserstein gradient flows — it optimizes conformations by minimizing an energy function defined on the latent mixture models of atoms, thereby significantly improving performance and interpretability. Extensive experiments demonstrate that our method consistently outperforms state-of-the-art competitors, providing a new and insightful paradigm to predict ground-state conformation.

arxiv情報

著者 Fanmeng Wang,Minjie Cheng,Hongteng Xu
発行日 2025-05-22 17:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph, q-bio.BM | WGFormer: An SE(3)-Transformer Driven by Wasserstein Gradient Flows for Molecular Ground-State Conformation Prediction はコメントを受け付けていません

Latent Principle Discovery for Language Model Self-Improvement

要約

言語モデル(LM)ユーザーが世代の品質を向上させることを目指している場合、モデルが反映するよう努力すべき具体的な行動属性を指定することが重要です。
ただし、多くのドメインでそのような原則をキュレーションすることは、非網羅的にさえ、労働集約的な注釈プロセスを必要とします。
このプロセスを自動化するために、自己修正設定で明示的にモデル化することにより、これらの潜在的な属性を人間優先応答に向けてガイドするモデルの推論を引き出すことを提案します。
私たちのアプローチは、LM自体から新しい原則を採掘し、発見された要素をクラスタリングを介して解釈可能なセットに圧縮します。
具体的には、後部正規化されたモンテカルロの期待最大化の近似を採用して、最も効果的な潜在原理の凝縮セットを識別し、LMに反応を本質的に改善するために戦略的に呼び起こすように教えます。
複数の反復にわたるアルゴリズムのブートストラップにより、より小さな言語モデル(7-8Bパラメーター)が自己改善を可能にし、アルパカエバルの勝率で +8-10%、MTベンチで平均+0.3、原則的なフォール入力の獲得率で +19-23%を達成することを実証します。
また、原則をクラスタリングすると、モデルのパフォーマンスを維持しながら、解釈可能で多様なモデル生成憲法が得られることも示しています。
私たちの方法は、継続的な自己改善に向けて、自動化された原則主導の訓練後のレシピの可能性を強調しています。

要約(オリジナル)

When language model (LM) users aim to improve the quality of its generations, it is crucial to specify concrete behavioral attributes that the model should strive to reflect. However, curating such principles across many domains, even non-exhaustively, requires a labor-intensive annotation process. To automate this process, we propose eliciting these latent attributes guiding model reasoning towards human-preferred responses by explicitly modeling them in a self-correction setting. Our approach mines new principles from the LM itself and compresses the discovered elements to an interpretable set via clustering. Specifically, we employ an approximation of posterior-regularized Monte Carlo Expectation-Maximization to both identify a condensed set of the most effective latent principles and teach the LM to strategically invoke them in order to intrinsically refine its responses. We demonstrate that bootstrapping our algorithm over multiple iterations enables smaller language models (7-8B parameters) to self-improve, achieving +8-10% in AlpacaEval win-rate, an average of +0.3 on MT-Bench, and +19-23% in principle-following win-rate on IFEval. We also show that clustering the principles yields interpretable and diverse model-generated constitutions while retaining model performance. The gains our method achieves highlight the potential of automated, principle-driven post-training recipes toward continual self-improvement.

arxiv情報

著者 Keshav Ramji,Tahira Naseem,Ramón Fernandez Astudillo
発行日 2025-05-22 17:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Latent Principle Discovery for Language Model Self-Improvement はコメントを受け付けていません

Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning

要約

$ \ infty $ -thorを紹介します。これは、具体化されたAIでの長いコンテキストの理解を促進する長老具体化されたタスクの新しいフレームワークです。
$ \ infty $ -thorは次のことを提供します。(1)スケーラブル、再現性、無制限の長期軌跡を合成するための生成フレームワーク。
(2)具体化されたHaystackに具体化されたQAタスク、針の針は具体化されています。ここでは、拡張された軌跡を介した複数の散乱した手がかりのテストエージェントの長い文脈の推論能力。
(3)何百もの環境ステップにまたがる複雑なタスクを備えた長距離データセットとベンチマークスイート。
この機能を有効にするために、インターリーブされた目標ステートアクションモデリング、コンテキスト拡張技術、コンテキスト並列性などの建築的適応を調査して、LLMベースのエージェントを極端に長いコンテキストの推論と相互作用に装備します。
実験結果と分析は、当社のベンチマークによってもたらされる課題を強調し、長期条件下でのトレーニング戦略とモデル行動に関する洞察を提供します。
私たちの仕事は、堅牢で長期的な推論と計画が可能な次世代の具体化されたAIシステムの基盤を提供します。

要約(オリジナル)

We introduce $\infty$-THOR, a new framework for long-horizon embodied tasks that advances long-context understanding in embodied AI. $\infty$-THOR provides: (1) a generation framework for synthesizing scalable, reproducible, and unlimited long-horizon trajectories; (2) a novel embodied QA task, Needle(s) in the Embodied Haystack, where multiple scattered clues across extended trajectories test agents’ long-context reasoning ability; and (3) a long-horizon dataset and benchmark suite featuring complex tasks that span hundreds of environment steps, each paired with ground-truth action sequences. To enable this capability, we explore architectural adaptations, including interleaved Goal-State-Action modeling, context extension techniques, and Context Parallelism, to equip LLM-based agents for extreme long-context reasoning and interaction. Experimental results and analyses highlight the challenges posed by our benchmark and provide insights into training strategies and model behaviors under long-horizon conditions. Our work provides a foundation for the next generation of embodied AI systems capable of robust, long-term reasoning and planning.

arxiv情報

著者 Bosung Kim,Prithviraj Ammanabrolu
発行日 2025-05-22 17:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Beyond Needle(s) in the Embodied Haystack: Environment, Architecture, and Training Considerations for Long Context Reasoning はコメントを受け付けていません

The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm

要約

極性分解と関連するマトリックス記号関数を計算することは、数十年にわたって数値分析でよく研究された問題でした。
最近では、特にMuon Optimization Framework内で、深い学習において重要なサブルーチンとして浮上しています。
ただし、この設定の要件は、従来の数値分析の要件とは大きく異なります。
深い学習では、方法は非常に効率的でGPU互換性がなければなりませんが、多くの場合、高精度は不要です。
その結果、Newton-Schulz(初期収束が遅い)や合理的な機能(QR分解またはマトリックスの逆に依存する)に基づく方法などの古典的なアルゴリズムは、このコンテキストにはあまり適していません。
この作業では、極性分解を計算するためのGPUに優しいアルゴリズムであるPolar Expressを紹介します。
Newton-Schulzなどの古典的な多項式方法と同様に、私たちのアプローチでは、Matrix-Matrix乗算のみを使用して、GPU互換性があります。
Chen&ChowとNakatsukasa&Freundの以前の研究に動機付けられたPolar Expressは、Minimaxの最適化問題を解決することにより、各反復で多項式更新ルールを適応させます。
この特性は、急速な早期収束と速い漸近収束の両方を保証します。
また、有限精度の問題に対処し、実際にはBFLOAT16で安定しています。
Muon Optimization Framework内にPolar Expressを適用し、GPT-2などの大規模モデルでの検証損失の一貫した改善を示し、さまざまな学習率にわたって最近の代替案よりも優れています。

要約(オリジナル)

Computing the polar decomposition and the related matrix sign function, has been a well-studied problem in numerical analysis for decades. More recently, it has emerged as an important subroutine in deep learning, particularly within the Muon optimization framework. However, the requirements in this setting differ significantly from those of traditional numerical analysis. In deep learning, methods must be highly efficient and GPU-compatible, but high accuracy is often unnecessary. As a result, classical algorithms like Newton-Schulz (which suffers from slow initial convergence) and methods based on rational functions (which rely on QR decompositions or matrix inverses) are poorly suited to this context. In this work, we introduce Polar Express, a GPU-friendly algorithm for computing the polar decomposition. Like classical polynomial methods such as Newton-Schulz, our approach uses only matrix-matrix multiplications, making it GPU-compatible. Motivated by earlier work of Chen & Chow and Nakatsukasa & Freund, Polar Express adapts the polynomial update rule at each iteration by solving a minimax optimization problem, and we prove that it enjoys a strong worst-case optimality guarantee. This property ensures both rapid early convergence and fast asymptotic convergence. We also address finite-precision issues, making it stable in bfloat16 in practice. We apply Polar Express within the Muon optimization framework and show consistent improvements in validation loss on large-scale models such as GPT-2, outperforming recent alternatives across a range of learning rates.

arxiv情報

著者 Noah Amsel,David Persson,Christopher Musco,Robert Gower
発行日 2025-05-22 17:23:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NA, math.NA, math.OC | The Polar Express: Optimal Matrix Sign Methods and Their Application to the Muon Algorithm はコメントを受け付けていません

Vague Knowledge: Evidence from Analyst Reports

要約

現実の世界の人々は、しばしば将来の見返りに関するあいまいな知識を持っています。
私たちは、曖昧な情報を伝える能力が異なる言語は、主観的な期待を表す上で重要ではあるがあまり知られていないロールを果たすと主張しています。
経験的には、彼らのレポートでは、アナリストには言語表現に有用な情報が含まれているが、数値予測ではないことがわかります。
具体的には、アナリストレポートのテキストトーンは、数値予測の予測エラーとその後の改訂に対して予測力があり、アナリストの言語が曖昧である場合、不確実性が高く、アナリストが忙しい場合、この関係はより強くなります。
全体として、私たちの理論と証拠は、いくつかの有用な情報が漠然と知られており、言語を通してのみ伝えられていることを示唆しています。

要約(オリジナル)

People in the real world often possess vague knowledge of future payoffs, for which quantification is not feasible or desirable. We argue that language, with differing ability to convey vague information, plays an important but less known-role in representing subjective expectations. Empirically, we find that in their reports, analysts include useful information in linguistic expressions but not numerical forecasts. Specifically, the textual tone of analyst reports has predictive power for forecast errors and subsequent revisions in numerical forecasts, and this relation becomes stronger when analyst’s language is vaguer, when uncertainty is higher, and when analysts are busier. Overall, our theory and evidence suggest that some useful information is vaguely known and only communicated through language.

arxiv情報

著者 Kerry Xiao,Amy Zang
発行日 2025-05-22 17:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 03B48, 03B65, 03E02, 03E15, 03E72, 18E45, 28A05, 62F15, 68T01, 68T35, 68T50, 91G30, cs.AI, cs.CL, econ.GN, I.2.3, math.LO, q-fin.EC, q-fin.GN | Vague Knowledge: Evidence from Analyst Reports はコメントを受け付けていません

FoMoH: A clinically meaningful foundation model evaluation for structured electronic health records

要約

財団モデルは、ダウンストリームタスクとは無関係に意味のある表現を抽出する能力を考えると、ヘルスケアに大きな約束を保持しています。
このプロパティは、ヘルスケアの一般的な課題である限られたラベルデータの設定であっても、構造化された電子健康記録(EHR)データでトレーニングされたいくつかの臨床アプリケーションで最先端のパフォーマンスを可能にしました。
ただし、包括的で意味のあるタスクのデシデラタが不足しているため、これらのモデルの臨床的有用性の可能性についてはほとんどコンセンサスがあり、従来の監視学習に対する利益を特徴付けるための十分に多様な評価があります。
このギャップに対処するために、患者の転帰にまたがる一連の臨床的に意味のあるタスクを提案します。これは、堅牢な評価のためのDesiderataを含む急性および慢性疾患の早期予測です。
ニューヨーク市の大規模な都市アカデミックメディカルセンターであるコロンビア大学アーヴィングメディカルセンター(CUMC)の500万人の患者で構成されるEHRデータに関する最先端の財団モデルを評価します。
トレーニング前、トークン化、およびデータ表現戦略の選択に基づいて、全体的な精度、キャリブレーション、および亜集団パフォーマンスを表面トレードオフに測定します。
私たちの研究の目的は、構造化されたEHR基礎モデルの経験的評価を進め、将来のヘルスケア財団モデルの開発を導くことです。

要約(オリジナル)

Foundation models hold significant promise in healthcare, given their capacity to extract meaningful representations independent of downstream tasks. This property has enabled state-of-the-art performance across several clinical applications trained on structured electronic health record (EHR) data, even in settings with limited labeled data, a prevalent challenge in healthcare. However, there is little consensus on these models’ potential for clinical utility due to the lack of desiderata of comprehensive and meaningful tasks and sufficiently diverse evaluations to characterize the benefit over conventional supervised learning. To address this gap, we propose a suite of clinically meaningful tasks spanning patient outcomes, early prediction of acute and chronic conditions, including desiderata for robust evaluations. We evaluate state-of-the-art foundation models on EHR data consisting of 5 million patients from Columbia University Irving Medical Center (CUMC), a large urban academic medical center in New York City, across 14 clinically relevant tasks. We measure overall accuracy, calibration, and subpopulation performance to surface tradeoffs based on the choice of pre-training, tokenization, and data representation strategies. Our study aims to advance the empirical evaluation of structured EHR foundation models and guide the development of future healthcare foundation models.

arxiv情報

著者 Chao Pang,Vincent Jeanselme,Young Sang Choi,Xinzhuo Jiang,Zilin Jing,Aparajita Kashyap,Yuta Kobayashi,Yanwei Li,Florent Pollet,Karthik Natarajan,Shalmali Joshi
発行日 2025-05-22 17:29:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | FoMoH: A clinically meaningful foundation model evaluation for structured electronic health records はコメントを受け付けていません

AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios

要約

大規模な言語モデル(LLMS)は、実際のエージェントアプリケーションで高度な機能を実証しています。
成長する研究の取り組みは、LLMベースのエージェントを開発して実用的な要求に対処し、新しい課題を導入することを目的としています。エージェントシナリオには、多くの場合、拡張システムプロンプトや詳細なツール仕様などの複雑な制約を伴う長い指示が含まれます。
そのような指示の順守はエージェントアプリケーションにとって重要ですが、LLMが確実にそれらに従うことができるかどうかは、既知のままです。
この論文では、エージェントシナリオの能力に従ってLLM命令を体系的に評価するための最初のベンチマークであるAgeentifを紹介します。
agentifは、3つの重要な特性を備えています。(1)50の現実世界のエージェントアプリケーションから構築された現実的です。
(2)長い、平均1,723語で最大15,630語。
(3)複雑な、命令あたり平均11.9の制約、ツール仕様や条件の制約などの多様な制約タイプをカバーします。
AgeTERIFを構築するために、産業用アプリケーションエージェントとオープンソースエージェントシステムからの50のエージェントタスクにわたって707のヒトが感染した命令を収集します。
各命令について、コードベースの評価、LLMベースの評価、ハイブリッドコード-LLM評価など、関連する制約と対応する評価メトリックに注釈を付けます。
AgeTedifを使用して、既存の高度なLLMを体系的に評価します。
特に複雑な制約構造とツール仕様の処理において、現在のモデルは一般にパフォーマンスが低いことを観察します。
さらに、命令の長さとメタの制約に関するエラー分析と分析実験を行い、既存のLLMの障害モードに関するいくつかの調査結果を提供します。
将来の研究を促進するために、コードとデータをリリースしました。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated advanced capabilities in real-world agentic applications. Growing research efforts aim to develop LLM-based agents to address practical demands, introducing a new challenge: agentic scenarios often involve lengthy instructions with complex constraints, such as extended system prompts and detailed tool specifications. While adherence to such instructions is crucial for agentic applications, whether LLMs can reliably follow them remains underexplored. In this paper, we introduce AgentIF, the first benchmark for systematically evaluating LLM instruction following ability in agentic scenarios. AgentIF features three key characteristics: (1) Realistic, constructed from 50 real-world agentic applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words. (3) Complex, averaging 11.9 constraints per instruction, covering diverse constraint types, such as tool specifications and condition constraints. To construct AgentIF, we collect 707 human-annotated instructions across 50 agentic tasks from industrial application agents and open-source agentic systems. For each instruction, we annotate the associated constraints and corresponding evaluation metrics, including code-based evaluation, LLM-based evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically evaluate existing advanced LLMs. We observe that current models generally perform poorly, especially in handling complex constraint structures and tool specifications. We further conduct error analysis and analytical experiments on instruction length and meta constraints, providing some findings about the failure modes of existing LLMs. We have released the code and data to facilitate future research.

arxiv情報

著者 Yunjia Qi,Hao Peng,Xiaozhi Wang,Amy Xin,Youfeng Liu,Bin Xu,Lei Hou,Juanzi Li
発行日 2025-05-22 17:31:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios はコメントを受け付けていません