Sequence Graph Network for Online Debate Analysis

要約

オンラインの議論には、参加者が敵の議論を積極的に検討し、反論で応答し、独自のポイントを強化し、議論が展開するにつれてより説得力のある議論を導入する必要がある場合、時間の経過とともにアイデアの動的な交換が含まれます。
このような複雑なプロセスをモデリングすることは、シーケンシャル特性と相互作用を効果的にキャプチャする機能の両方を組み込む必要があるため、単純なタスクではありません。
この課題に対処するために、シーケンスグラフアプローチを採用しています。
会話をグラフとして構築することで、指示されたエッジを介して参加者間の相互作用を効果的にモデル化することができます。
同時に、これらのエッジに沿った情報の伝播により、より包括的な文脈の表現をキャプチャすることができます。
また、提案された情報更新スキームを説明するために、シーケンスグラフ注意レイヤーを紹介します。
実験結果は、シーケンスグラフネットワークがオンライン討論で既存の方法よりも優れた結果を達成することを示しています。

要約(オリジナル)

Online debates involve a dynamic exchange of ideas over time, where participants need to actively consider their opponents’ arguments, respond with counterarguments, reinforce their own points, and introduce more compelling arguments as the discussion unfolds. Modeling such a complex process is not a simple task, as it necessitates the incorporation of both sequential characteristics and the capability to capture interactions effectively. To address this challenge, we employ a sequence-graph approach. Building the conversation as a graph allows us to effectively model interactions between participants through directed edges. Simultaneously, the propagation of information along these edges in a sequential manner enables us to capture a more comprehensive representation of context. We also introduce a Sequence Graph Attention layer to illustrate the proposed information update scheme. The experimental results show that sequence graph networks achieve superior results to existing methods in online debates.

arxiv情報

著者 Quan Mai,Susan Gauch,Douglas Adams,Miaoqing Huang
発行日 2025-02-27 16:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sequence Graph Network for Online Debate Analysis はコメントを受け付けていません

A Large-Scale Simulation on Large Language Models for Decision-Making in Political Science

要約

LLMはテキスト生成と推論において顕著な能力を実証していますが、人間の意思決定をシミュレートする能力 – 特に政治的文脈では、未解決の問題のままです。
ただし、有権者の行動のモデリングは、有権者レベルのデータが限られていること、進化する政治的景観、および人間の推論の複雑さにより、独自の課題を提示します。
この研究では、人口統計学的、時間的、イデオロギー的要因を統合して投票者の意思決定を大規模にシミュレートする理論主導のマルチステップ推論フレームワークを開発します。
現実世界の有権者データまで調整された合成ペルソナを使用して、最近の米国大統領選挙の大規模なシミュレーションを実施しています。
この方法は、モデルバイアスを軽減しながら、シミュレーションの精度を大幅に向上させます。
異なるLLMのパフォーマンスを比較することにより、その堅牢性を調べます。
さらに、LLMベースの政治シミュレーションから生じる課題と制約を調査します。
私たちの仕事は、政治的意思決定の行動をモデル化するためのスケーラブルなフレームワークと、政治学研究でLLMを使用することの約束と制限に関する洞察の両方を提供します。

要約(オリジナル)

While LLMs have demonstrated remarkable capabilities in text generation and reasoning, their ability to simulate human decision-making — particularly in political contexts — remains an open question. However, modeling voter behavior presents unique challenges due to limited voter-level data, evolving political landscapes, and the complexity of human reasoning. In this study, we develop a theory-driven, multi-step reasoning framework that integrates demographic, temporal and ideological factors to simulate voter decision-making at scale. Using synthetic personas calibrated to real-world voter data, we conduct large-scale simulations of recent U.S. presidential elections. Our method significantly improves simulation accuracy while mitigating model biases. We examine its robustness by comparing performance across different LLMs. We further investigate the challenges and constraints that arise from LLM-based political simulations. Our work provides both a scalable framework for modeling political decision-making behavior and insights into the promise and limitations of using LLMs in political science research.

arxiv情報

著者 Chenxiao Yu,Jinyi Ye,Yuangang Li,Zhaotian Weng,Zheng Li,Emilio Ferrara,Xiyang Hu,Yue Zhao
発行日 2025-02-27 16:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI | A Large-Scale Simulation on Large Language Models for Decision-Making in Political Science はコメントを受け付けていません

SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

要約

大規模な言語モデル(LLMS)は、数学、物理学、コンピューターサイエンスなどの主流の学術分野において顕著な習熟度を示しています。
ただし、人間の知識には、既存のベンチマークの範囲をはるかに超える200を超える専門分野が含まれます。
これらの専門分野の多くにおけるLLMの能力は、特に産業、農業、およびサービス指向の分野において、不十分に評価されています。
このギャップに対処するために、285の分野で大学院レベルの知識と推論能力を評価する包括的なベンチマークであるSuperGPQAを提示します。
当社のベンチマークは、LLM応答と専門家のフィードバックの両方に基づいた反復改良により、些細なまたは曖昧な質問を排除するために、新しいヒューマンLLM共同溶融フィルタリングメカニズムを採用しています。
私たちの実験結果は、多様な知識ドメイン全体で現在の最先端のLLMのパフォーマンスを改善するための重要な余地を明らかにしています(たとえば、推論に焦点を当てたモデルDeepSeek-R1は、SuperGPQAで61.82%の最高精度を達成し、現在のモデル能力と人工的な一般情報の間のかなりのギャップを強調しました。
さらに、80を超える専門家アノテーターとインタラクティブな人間の共同体系を含む大規模な注釈プロセスの管理から包括的な洞察を提示し、同等の範囲の将来の研究イニシアチブのための貴重な方法論的ガイダンスを提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable proficiency in mainstream academic disciplines such as mathematics, physics, and computer science. However, human knowledge encompasses over 200 specialized disciplines, far exceeding the scope of existing benchmarks. The capabilities of LLMs in many of these specialized fields-particularly in light industry, agriculture, and service-oriented disciplines-remain inadequately evaluated. To address this gap, we present SuperGPQA, a comprehensive benchmark that evaluates graduate-level knowledge and reasoning capabilities across 285 disciplines. Our benchmark employs a novel Human-LLM collaborative filtering mechanism to eliminate trivial or ambiguous questions through iterative refinement based on both LLM responses and expert feedback. Our experimental results reveal significant room for improvement in the performance of current state-of-the-art LLMs across diverse knowledge domains (e.g., the reasoning-focused model DeepSeek-R1 achieved the highest accuracy of 61.82% on SuperGPQA), highlighting the considerable gap between current model capabilities and artificial general intelligence. Additionally, we present comprehensive insights from our management of a large-scale annotation process, involving over 80 expert annotators and an interactive Human-LLM collaborative system, offering valuable methodological guidance for future research initiatives of comparable scope.

arxiv情報

著者 M-A-P Team,Xinrun Du,Yifan Yao,Kaijing Ma,Bingli Wang,Tianyu Zheng,Kang Zhu,Minghao Liu,Yiming Liang,Xiaolong Jin,Zhenlin Wei,Chujie Zheng,Kaixin Deng,Shian Jia,Sichao Jiang,Yiyan Liao,Rui Li,Qinrui Li,Sirun Li,Yizhi Li,Yunwen Li,Dehua Ma,Yuansheng Ni,Haoran Que,Qiyao Wang,Zhoufutu Wen,Siwei Wu,Tianshun Xing,Ming Xu,Zhenzhu Yang,Zekun Moore Wang,Junting Zhou,Yuelin Bai,Xingyuan Bu,Chenglin Cai,Liang Chen,Yifan Chen,Chengtuo Cheng,Tianhao Cheng,Keyi Ding,Siming Huang,Yun Huang,Yaoru Li,Yizhe Li,Zhaoqun Li,Tianhao Liang,Chengdong Lin,Hongquan Lin,Yinghao Ma,Tianyang Pang,Zhongyuan Peng,Zifan Peng,Qige Qi,Shi Qiu,Xingwei Qu,Shanghaoran Quan,Yizhou Tan,Zili Wang,Chenqing Wang,Hao Wang,Yiya Wang,Yubo Wang,Jiajun Xu,Kexin Yang,Ruibin Yuan,Yuanhao Yue,Tianyang Zhan,Chun Zhang,Jinyang Zhang,Xiyue Zhang,Xingjian Zhang,Yue Zhang,Yongchi Zhao,Xiangyu Zheng,Chenghua Zhong,Yang Gao,Zhoujun Li,Dayiheng Liu,Qian Liu,Tianyu Liu,Shiwen Ni,Junran Peng,Yujia Qin,Wenbo Su,Guoyin Wang,Shi Wang,Jian Yang,Min Yang,Meng Cao,Xiang Yue,Zhaoxiang Zhang,Wangchunshu Zhou,Jiaheng Liu,Qunshu Lin,Wenhao Huang,Ge Zhang
発行日 2025-02-27 17:01:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines はコメントを受け付けていません

How Much is Enough? The Diminishing Returns of Tokenization Training Data

要約

自然言語処理における重要な初期ステップであるトークン化は、より大きなトレーニングデータセットの恩恵を受けると想定されることがよくあります。
このペーパーでは、1GBから900GBの範囲のトークン剤トレーニングデータサイズの影響を調査します。
私たちの調査結果は、データサイズが増加するにつれてリターンが減少することを明らかにし、トレーニングデータをさらにスケーリングすることでトークン化の品質を改善できることの実際的な制限を強調しています。
この現象を分析し、飽和効果を、トークン化のトークン化段階によって課される制約に起因します。
これらの結果は、トークン化プロセスを最適化するための貴重な洞察を提供し、トークン化アルゴリズムの将来の研究の潜在的な手段を強調します。

要約(オリジナル)

Tokenization, a crucial initial step in natural language processing, is often assumed to benefit from larger training datasets. This paper investigates the impact of tokenizer training data sizes ranging from 1GB to 900GB. Our findings reveal diminishing returns as the data size increases, highlighting a practical limit on how much further scaling the training data can improve tokenization quality. We analyze this phenomenon and attribute the saturation effect to the constraints imposed by the pre-tokenization stage of tokenization. These results offer valuable insights for optimizing the tokenization process and highlight potential avenues for future research in tokenization algorithms.

arxiv情報

著者 Varshini Reddy,Craig W. Schmidt,Yuval Pinter,Chris Tanner
発行日 2025-02-27 17:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL | How Much is Enough? The Diminishing Returns of Tokenization Training Data はコメントを受け付けていません

Long-Context Inference with Retrieval-Augmented Speculative Decoding

要約

ロングコンテキストの大規模な言語モデル(LLMS)の出現は、広範なドキュメントを処理するための従来の検索高等世代(RAG)の有望な代替手段を提供します。
ただし、特にキー価値(kV)キャッシュの管理における長いコンテキスト推論の計算オーバーヘッドは、重要な効率の課題を示しています。
投機的デコード(SD)は従来、より小さなドラフトモデルを使用して推論を加速しますが、その有効性は、メモリに縛られたKVキャッシュ操作により、長いコンテキストシナリオで大幅に減少します。
検索された選択的解体(Rapid)を提示します。これは、長いコンテキスト推論における生成品質の加速と向上の両方にRAGを活用します。
Rapidは、長いコンテキストターゲットLLMの生成を推測するために、短縮された検索コンテキストで動作するドラフトLLMのRAG Drafter-Aドラフトを導入します。
私たちのアプローチにより、計算効率を維持しながら、同じスケールまたはさらに大きなLLMがラグドラフトとして機能する新しいパラダイムが可能になります。
潜在的に優れた能力を強力なragドラフトから完全に活用するために、ターゲット分布をRAGで濃縮する推論時間知識転送ダイナミックを開発します。
Llama-3.1およびQwen2.5バックボーンでの広範な実験は、2倍以上のスピードアップで、Llama-3.1-8bのInfinitebenchで39.33から42.83までの大幅なパフォーマンスの改善を達成し、両方のアプローチの強さを迅速に統合することを示しています。
私たちの分析では、迅速なものが32Kコンテキストの長さを超える堅牢な加速を達成し、現実世界のアプリケーションで優れた生成品質を実証することが明らかになりました。

要約(オリジナル)

The emergence of long-context large language models (LLMs) offers a promising alternative to traditional retrieval-augmented generation (RAG) for processing extensive documents. However, the computational overhead of long-context inference, particularly in managing key-value (KV) caches, presents significant efficiency challenges. While Speculative Decoding (SD) traditionally accelerates inference using smaller draft models, its effectiveness diminishes substantially in long-context scenarios due to memory-bound KV cache operations. We present Retrieval-Augmented Speculative Decoding (RAPID), which leverages RAG for both accelerating and enhancing generation quality in long-context inference. RAPID introduces the RAG drafter-a draft LLM operating on shortened retrieval contexts-to speculate on the generation of long-context target LLMs. Our approach enables a new paradigm where same-scale or even larger LLMs can serve as RAG drafters while maintaining computational efficiency. To fully leverage the potentially superior capabilities from stronger RAG drafters, we develop an inference-time knowledge transfer dynamic that enriches the target distribution by RAG. Extensive experiments on the LLaMA-3.1 and Qwen2.5 backbones demonstrate that RAPID effectively integrates the strengths of both approaches, achieving significant performance improvements (e.g., from 39.33 to 42.83 on InfiniteBench for LLaMA-3.1-8B) with more than 2x speedups. Our analyses reveal that RAPID achieves robust acceleration beyond 32K context length and demonstrates superior generation quality in real-world applications.

arxiv情報

著者 Guanzheng Chen,Qilong Feng,Jinjie Ni,Xin Li,Michael Qizhe Shieh
発行日 2025-02-27 17:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long-Context Inference with Retrieval-Augmented Speculative Decoding はコメントを受け付けていません

Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models

要約

参照の乱用や比phorの認識/生成など、複雑な言語能力を必要とするタスクには、大規模な言語モデル(LLM)が優れています。
LLMは印象的な能力を持っていますが、言語知識を処理および表現するための内部メカニズムは、主に不透明なままです。
言語メカニズムに関する以前の研究は、粗い粒度、不十分な因果分析、および狭い焦点によって制限されています。
この研究では、スパース自動エンコーダー(SAE)を使用した体系的で包括的な因果調査を提示します。
音声学、音韻、形態学、構文、セマンティクス、プラグマティクスの6つの次元から幅広い言語特徴を抽出します。
最小限のコントラストデータセットと反事実的な文データセットを構築することにより、これらの機能を抽出、評価、介入します。
2つのインデックスフィーチャー表現信頼性(FRC)と特徴介入信頼性(FIC)を導入し、言語特徴が言語現象をキャプチャおよび制御する能力を測定します。
私たちの結果は、LLMSにおける言語知識の固有の表現を明らかにし、モデル出力を制御する可能性を示しています。
この研究は、LLMが本物の言語知識を持っているという強力な証拠を提供し、将来の研究でより解釈可能で制御可能な言語モデリングの基礎を築きます。

要約(オリジナル)

Large language models (LLMs) excel in tasks that require complex linguistic abilities, such as reference disambiguation and metaphor recognition/generation. Although LLMs possess impressive capabilities, their internal mechanisms for processing and representing linguistic knowledge remain largely opaque. Previous work on linguistic mechanisms has been limited by coarse granularity, insufficient causal analysis, and a narrow focus. In this study, we present a systematic and comprehensive causal investigation using sparse auto-encoders (SAEs). We extract a wide range of linguistic features from six dimensions: phonetics, phonology, morphology, syntax, semantics, and pragmatics. We extract, evaluate, and intervene on these features by constructing minimal contrast datasets and counterfactual sentence datasets. We introduce two indices-Feature Representation Confidence (FRC) and Feature Intervention Confidence (FIC)-to measure the ability of linguistic features to capture and control linguistic phenomena. Our results reveal inherent representations of linguistic knowledge in LLMs and demonstrate the potential for controlling model outputs. This work provides strong evidence that LLMs possess genuine linguistic knowledge and lays the foundation for more interpretable and controllable language modeling in future research.

arxiv情報

著者 Yi Jing,Zijun Yao,Lingxu Ran,Hongzhu Guo,Xiaozhi Wang,Lei Hou,Juanzi Li
発行日 2025-02-27 18:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models はコメントを受け付けていません

KEDRec-LM: A Knowledge-distilled Explainable Drug Recommendation Large Language Model

要約

創薬は生物医学の自然言語処理(NLP)における重要な作業ですが、説明可能な創薬の発見は未定です。
一方、大規模な言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示しています。
説明可能な創薬のためにLLMを活用することは、下流のタスクと現実世界のアプリケーションを改善する可能性があります。
この研究では、オープンソースの薬物知識グラフ、臨床試験データ、およびPubMed Publicationsを利用して、説明可能な創薬タスクの包括的なデータセットを構築します。
さらに、薬物推奨と根拠の生成のために豊富な医学知識コーパスから知識を蒸留する命令チューニングLLMである\ textBf {kedrec-lm}を紹介します。
この分野でのさらなる調査を奨励するために、データセットとKedrec-LMの両方の両方を公開\ footnote {この提出物に添付されています}を公開します。

要約(オリジナル)

Drug discovery is a critical task in biomedical natural language processing (NLP), yet explainable drug discovery remains underexplored. Meanwhile, large language models (LLMs) have shown remarkable abilities in natural language understanding and generation. Leveraging LLMs for explainable drug discovery has the potential to improve downstream tasks and real-world applications. In this study, we utilize open-source drug knowledge graphs, clinical trial data, and PubMed publications to construct a comprehensive dataset for the explainable drug discovery task, named \textbf{expRxRec}. Furthermore, we introduce \textbf{KEDRec-LM}, an instruction-tuned LLM which distills knowledge from rich medical knowledge corpus for drug recommendation and rationale generation. To encourage further research in this area, we will publicly release\footnote{A copy is attached with this submission} both the dataset and KEDRec-LM.

arxiv情報

著者 Kai Zhang,Rui Zhu,Shutian Ma,Jingwei Xiong,Yejin Kim,Fabricio Murai,Xiaozhong Liu
発行日 2025-02-27 18:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KEDRec-LM: A Knowledge-distilled Explainable Drug Recommendation Large Language Model はコメントを受け付けていません

Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis

要約

Web AIエージェントの最近の進歩により、複雑なWebナビゲーションタスクに対処する際の顕著な能力が実証されています。
ただし、新たな研究は、これらのエージェントが同じ安全整合モデルに基づいて構築されているにもかかわらず、スタンドアロンの大手言語モデル(LLM)と比較してより大きな脆弱性を示すことを示しています。
この矛盾は、スタンドアロンLLMSと比較してWeb AIエージェントの柔軟性が高いことを考えると特に懸念されます。
これらの懸念に対処する足場を構築するために、この研究では、Web AIエージェントの脆弱性の増加に寄与する根本的な要因を調査します。
特に、この格差は、Web AIエージェントとスタンドアロンLLMの多面的な違い、および複雑なシグナル – 成功率などの単純な評価メトリックがキャプチャできないことが多いことに由来しています。
これらの課題に取り組むために、コンポーネントレベルの分析と、より詳細で体系的な評価フレームワークを提案します。
このきめの細かい調査を通じて、Web AIエージェントの脆弱性を増幅する3つの重要な要因を特定します。
(1)ユーザーの目標をシステムプロンプト、(2)マルチステップアクション生成、および(3)観測能力に埋め込む。
私たちの調査結果は、AIエージェントの設計におけるセキュリティと堅牢性を高め、ターゲットを絞った防衛戦略のための実用的な洞察を提供するための差し迫った必要性を強調しています。

要約(オリジナル)

Recent advancements in Web AI agents have demonstrated remarkable capabilities in addressing complex web navigation tasks. However, emerging research shows that these agents exhibit greater vulnerability compared to standalone Large Language Models (LLMs), despite both being built upon the same safety-aligned models. This discrepancy is particularly concerning given the greater flexibility of Web AI Agent compared to standalone LLMs, which may expose them to a wider range of adversarial user inputs. To build a scaffold that addresses these concerns, this study investigates the underlying factors that contribute to the increased vulnerability of Web AI agents. Notably, this disparity stems from the multifaceted differences between Web AI agents and standalone LLMs, as well as the complex signals – nuances that simple evaluation metrics, such as success rate, often fail to capture. To tackle these challenges, we propose a component-level analysis and a more granular, systematic evaluation framework. Through this fine-grained investigation, we identify three critical factors that amplify the vulnerability of Web AI agents; (1) embedding user goals into the system prompt, (2) multi-step action generation, and (3) observational capabilities. Our findings highlights the pressing need to enhance security and robustness in AI agent design and provide actionable insights for targeted defense strategies.

arxiv情報

著者 Jeffrey Yang Fan Chiang,Seungjae Lee,Jia-Bin Huang,Furong Huang,Yizheng Chen
発行日 2025-02-27 18:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis はコメントを受け付けていません

Remove Symmetries to Control Model Expressivity and Improve Optimization

要約

対称性が損失関数に存在する場合、モデルは「崩壊」として知られる場合がある低容量状態に閉じ込められる可能性があります。
これらの低容量の状態に閉じ込められていることは、深い学習技術が適用される多くのシナリオでトレーニングの大きな障害となる可能性があります。
最初に、対称性が能力の低下につながり、トレーニングと推論中に特徴を無視する2つの具体的なメカニズムを証明します。
次に、シンプルで理論的に正当化されたアルゴリズムであるSyreを提案して、ニューラルネットワークでほぼすべての対称性誘導性低容量状態を除去します。
このタイプの閉じ込めが特に懸念事項である場合、提案された方法との対称性を除去することは、最適化またはパフォーマンスの改善とよく相関することが示されています。
提案された方法の顕著なメリットは、それがモデルに依存しており、対称性の知識を必要としないことです。

要約(オリジナル)

When symmetry is present in the loss function, the model is likely to be trapped in a low-capacity state that is sometimes known as a ‘collapse’. Being trapped in these low-capacity states can be a major obstacle to training across many scenarios where deep learning technology is applied. We first prove two concrete mechanisms through which symmetries lead to reduced capacities and ignored features during training and inference. We then propose a simple and theoretically justified algorithm, syre, to remove almost all symmetry-induced low-capacity states in neural networks. When this type of entrapment is especially a concern, removing symmetries with the proposed method is shown to correlate well with improved optimization or performance. A remarkable merit of the proposed method is that it is model-agnostic and does not require any knowledge of the symmetry.

arxiv情報

著者 Liu Ziyin,Yizhou Xu,Isaac Chuang
発行日 2025-02-27 15:30:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Remove Symmetries to Control Model Expressivity and Improve Optimization はコメントを受け付けていません

JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models

要約

構造化された出力を確実に生成することは、現代言語モデル(LM)アプリケーションにとって重要な機能になりました。
制約されたデコードは、生成中に構造化された出力を実施するためのセクター全体で支配的な技術として浮上しています。
採用の拡大にもかかわらず、制約されたデコードの行動とパフォーマンスの体系的な評価ではほとんど行われていません。
制約されたデコードフレームワークは、JSONスキーマを構造化されたデータ形式として標準化されており、ほとんどの用途はスキーマを与えられた制約コンプライアンスを保証します。
ただし、実際には方法の有効性についての理解が不十分です。
3つの重要な次元にわたって制約されたデコードアプローチを評価する評価フレームワークを提示します。制約に準拠した出力の生成効率、多様な制約タイプのカバレッジ、および生成された出力の品質です。
この評価を容易にするために、Jsonschemabenchを導入します。これは、さまざまな複雑さを伴う幅広い制約を含む10kの実世界のJSONスキーマを含む制約付きデコードのベンチマークです。
ベンチマークを既存の公式JSONスキーマテストスイートとペアにし、ガイダンス、アウトライン、ラマック、Xgrammar、Openai、Geminiなど、6つの最先端の制約付きデコードフレームワークを評価します。
広範な実験を通じて、実際のJSONスキーマを使用した構造化された生成の制約されたデコードの能力と制限に関する洞察を得ます。
私たちの仕事は、制約されたデコードフレームワークと構造化された生成タスクを改善するための実用的な洞察を提供し、制約されたデコードと構造化された生成を評価するための新しい基準を設定します。
https://github.com/guidance-ai/jsonschemabenchでjsonschemabenchをリリースします

要約(オリジナル)

Reliably generating structured outputs has become a critical capability for modern language model (LM) applications. Constrained decoding has emerged as the dominant technology across sectors for enforcing structured outputs during generation. Despite its growing adoption, little has been done with the systematic evaluation of the behaviors and performance of constrained decoding. Constrained decoding frameworks have standardized around JSON Schema as a structured data format, with most uses guaranteeing constraint compliance given a schema. However, there is poor understanding of the effectiveness of the methods in practice. We present an evaluation framework to assess constrained decoding approaches across three critical dimensions: efficiency in generating constraint-compliant outputs, coverage of diverse constraint types, and quality of the generated outputs. To facilitate this evaluation, we introduce JSONSchemaBench, a benchmark for constrained decoding comprising 10K real-world JSON schemas that encompass a wide range of constraints with varying complexity. We pair the benchmark with the existing official JSON Schema Test Suite and evaluate six state-of-the-art constrained decoding frameworks, including Guidance, Outlines, Llamacpp, XGrammar, OpenAI, and Gemini. Through extensive experiments, we gain insights into the capabilities and limitations of constrained decoding on structured generation with real-world JSON schemas. Our work provides actionable insights for improving constrained decoding frameworks and structured generation tasks, setting a new standard for evaluating constrained decoding and structured generation. We release JSONSchemaBench at https://github.com/guidance-ai/jsonschemabench

arxiv情報

著者 Saibo Geng,Hudson Cooper,Michał Moskal,Samuel Jenkins,Julian Berman,Nathan Ranchin,Robert West,Eric Horvitz,Harsha Nori
発行日 2025-02-27 15:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models はコメントを受け付けていません