J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization

要約

大規模な言語モデル(LLM)開発のペースの増加に対応するために、モデルの出力評価は、LLM自体が他のモデル出力の評価と批判を担当する自動評価に至るまで、時間のかかる人間の評価から離れて移行しました。
LLM-As-Judgeモデルは、チャットの品質などの比較的単純なドメインを評価するのに優れている生成評価者のクラスですが、モデル応答がより実質的で挑戦的なコンテンツを含む集中的なドメインを推論するのに苦労しています。
既存の裁判官の欠点を改善するために、補強学習(RL)で訓練裁判官を探求します。
3つの重要な貢献をします。(1)同等の初期状態グループ相対政策最適化(EIS-GRPO)アルゴリズムを提案します。これにより、より複雑な評価設定で発生する位置バイアスに堅牢であるように裁判官を訓練できます。
(2)ReasonIngJudgeBenchを紹介します。これは、以前の作業でカバーされていない多様な推論設定で裁判官を評価するベンチマークです。
(3)GPT-4Oを上回るEIS-GRPOで訓練された7Bの裁判官であり、次の最高の小さな裁判官を6.7%と9%で訓練し、Judgent-BenchとReasoningJudgeBenchの両方で大規模なGRPO訓練を受けた裁判官のパフォーマンスを一致させるか、それを超える7Bの裁判官を訓練します。

要約(オリジナル)

To keep pace with the increasing pace of large language models (LLM) development, model output evaluation has transitioned away from time-consuming human evaluation to automatic evaluation, where LLMs themselves are tasked with assessing and critiquing other model outputs. LLM-as-judge models are a class of generative evaluators that excel in evaluating relatively simple domains, like chat quality, but struggle in reasoning intensive domains where model responses contain more substantive and challenging content. To remedy existing judge shortcomings, we explore training judges with reinforcement learning (RL). We make three key contributions: (1) We propose the Equivalent Initial State Group Relative Policy Optimization (EIS-GRPO) algorithm, which allows us to train our judge to be robust to positional biases that arise in more complex evaluation settings. (2) We introduce ReasoningJudgeBench, a benchmark that evaluates judges in diverse reasoning settings not covered by prior work. (3) We train Judge for Reasoning (J4R), a 7B judge trained with EIS-GRPO that outperforms GPT-4o and the next best small judge by 6.7% and 9%, matching or exceeding the performance of larger GRPO-trained judges on both JudgeBench and ReasoningJudgeBench.

arxiv情報

著者 Austin Xu,Yilun Zhou,Xuan-Phi Nguyen,Caiming Xiong,Shafiq Joty
発行日 2025-05-19 16:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization はコメントを受け付けていません

Yes, Q-learning Helps Offline In-Context RL

要約

既存のオフライン内コンテキスト補強学習(ICRL)メソッドは、主にオフラインRL設定に制限があることが知られている監視されたトレーニング目標に依存しています。
この研究では、オフラインのICRLフレームワーク内でのRL目標の統合を調査します。
150を超えるGridworldおよびMujoco環境由来のデータセットでの実験を通じて、RL目標を最適化することで、さまざまなデータセットカバレッジ、構造、専門知識レベル、環境の複雑さにわたって、広く採用されたアルゴリズム蒸留(AD)と比較して、パフォーマンスが平均で約30%向上することを実証します。
さらに、挑戦的なXland-minigrid環境では、RLの目標がADのパフォーマンスを2倍にしました。
また、私たちの結果は、価値学習中に保守主義を追加すると、テストされたほぼすべての設定で追加の改善がもたらされることが明らかになりました。
私たちの調査結果は、ICRL学習目標をRL報酬最大化目標に合わせることの重要性を強調し、オフラインRLがICRLを進めるための有望な方向であることを示しています。

要約(オリジナル)

Existing offline in-context reinforcement learning (ICRL) methods have predominantly relied on supervised training objectives, which are known to have limitations in offline RL settings. In this study, we explore the integration of RL objectives within an offline ICRL framework. Through experiments on more than 150 GridWorld and MuJoCo environment-derived datasets, we demonstrate that optimizing RL objectives directly improves performance by approximately 30% on average compared to widely adopted Algorithm Distillation (AD), across various dataset coverages, structures, expertise levels, and environmental complexities. Furthermore, in the challenging XLand-MiniGrid environment, RL objectives doubled the performance of AD. Our results also reveal that the addition of conservatism during value learning brings additional improvements in almost all settings tested. Our findings emphasize the importance of aligning ICRL learning objectives with the RL reward-maximization goal, and demonstrate that offline RL is a promising direction for advancing ICRL.

arxiv情報

著者 Denis Tarasov,Alexander Nikulin,Ilya Zisman,Albina Klepach,Andrei Polubarov,Nikita Lyubaykin,Alexander Derevyagin,Igor Kiselev,Vladislav Kurenkov
発行日 2025-05-19 16:55:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Yes, Q-learning Helps Offline In-Context RL はコメントを受け付けていません

Multi-Armed Bandits Meet Large Language Models

要約

Banditアルゴリズムと大規模な言語モデル(LLM)は、人工知能の強力なツールとして浮上しており、それぞれが意思決定と自然言語処理における明確で補完的な課題に対処しています。
この調査では、これら2つの分野間の相乗的可能性を調査し、BanditアルゴリズムがLLMのパフォーマンスをどのように強化するか、LLMSが盗賊ベースの意思決定を改善するための新しい洞察を提供する方法を強調しています。
最初に、LLMの微調整、迅速なエンジニアリング、および適応対応の生成を最適化する際の盗賊アルゴリズムの役割を調べ、大規模な学習タスクでの探査と搾取のバランスをとる能力に焦点を当てています。
その後、LLMSが自然言語の推論を使用して、高度なコンテキスト理解、動的適応、および改善されたポリシー選択を通じて盗賊アルゴリズムをどのように増強できるかを探ります。
既存の研究の包括的なレビューを提供し、主要な課題と機会を特定することにより、この調査は、BanditアルゴリズムとLLMSのギャップを埋めることを目的としており、AIの革新的なアプリケーションと学際的研究への道を開いています。

要約(オリジナル)

Bandit algorithms and Large Language Models (LLMs) have emerged as powerful tools in artificial intelligence, each addressing distinct yet complementary challenges in decision-making and natural language processing. This survey explores the synergistic potential between these two fields, highlighting how bandit algorithms can enhance the performance of LLMs and how LLMs, in turn, can provide novel insights for improving bandit-based decision-making. We first examine the role of bandit algorithms in optimizing LLM fine-tuning, prompt engineering, and adaptive response generation, focusing on their ability to balance exploration and exploitation in large-scale learning tasks. Subsequently, we explore how LLMs can augment bandit algorithms through advanced contextual understanding, dynamic adaptation, and improved policy selection using natural language reasoning. By providing a comprehensive review of existing research and identifying key challenges and opportunities, this survey aims to bridge the gap between bandit algorithms and LLMs, paving the way for innovative applications and interdisciplinary research in AI.

arxiv情報

著者 Djallel Bouneffouf,Raphael Feraud
発行日 2025-05-19 16:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Multi-Armed Bandits Meet Large Language Models はコメントを受け付けていません

One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling

要約

拡散ベースの生成モデルは並外れたパフォーマンスを実証していますが、それらの反復サンプリング手順は計算上高価のままです。
このコストを緩和する顕著な戦略は蒸留であり、オフライン蒸留は効率、モジュール性、柔軟性の点で特定の利点を提供します。
この作業では、原則的な蒸留フレームワークを動機付ける2つの重要な観察結果を特定します。(1)動的システム理論のレンズを通じて拡散モデルが見られている一方で、強力で採用されていないツールをさらに活用できます。
(2)拡散モデルは、潜在空間に構造化された意味的に一貫した軌跡を本質的に課します。
これらの観察に基づいて、Koopman蒸留モデルKDMを紹介します。これは、変換された空間で非線形ダイナミクスを直線的に表現するためのKoopman Theory-A Classical Frameworkに基づいた新しいオフライン蒸留アプローチです。
KDMは、学習した線形演算子がそれらを前方に伝播する埋め込みスペースに騒々しい入力をエンコードし、その後にクリーンサンプルを再構築するデコーダーが続きます。
これにより、セマンティックフィデリティを維持しながら、シングルステップの生成が可能になります。
私たちはアプローチの理論的正当化を提供します。(1)穏やかな仮定の下で、学習した拡散ダイナミクスは有限の次元Koopman表現を認めます。
(2)Koopman潜在スペースの近接性は、生成された出力のセマンティックな類似性と相関しており、効果的な軌道アライメントを可能にします。
経験的には、KDMは標準のオフライン蒸留ベンチマーク全体で最先端のパフォーマンスを達成し、単一の世代のステップでFIDスコアを最大40%改善します。
実験セットアップのすべての実装の詳細とコードは、github-https://github.com/azencot-group/kdm、またはプロジェクトページ-https://sites.google.com/view/koopman-distilation-modelに提供されています。

要約(オリジナル)

Diffusion-based generative models have demonstrated exceptional performance, yet their iterative sampling procedures remain computationally expensive. A prominent strategy to mitigate this cost is distillation, with offline distillation offering particular advantages in terms of efficiency, modularity, and flexibility. In this work, we identify two key observations that motivate a principled distillation framework: (1) while diffusion models have been viewed through the lens of dynamical systems theory, powerful and underexplored tools can be further leveraged; and (2) diffusion models inherently impose structured, semantically coherent trajectories in latent space. Building on these observations, we introduce the Koopman Distillation Model KDM, a novel offline distillation approach grounded in Koopman theory-a classical framework for representing nonlinear dynamics linearly in a transformed space. KDM encodes noisy inputs into an embedded space where a learned linear operator propagates them forward, followed by a decoder that reconstructs clean samples. This enables single-step generation while preserving semantic fidelity. We provide theoretical justification for our approach: (1) under mild assumptions, the learned diffusion dynamics admit a finite-dimensional Koopman representation; and (2) proximity in the Koopman latent space correlates with semantic similarity in the generated outputs, allowing for effective trajectory alignment. Empirically, KDM achieves state-of-the-art performance across standard offline distillation benchmarks, improving FID scores by up to 40% in a single generation step. All implementation details and code for the experimental setups are provided in our GitHub – https://github.com/azencot-group/KDM, or in our project page – https://sites.google.com/view/koopman-distillation-model.

arxiv情報

著者 Nimrod Berman,Ilan Naiman,Moshe Eliasof,Hedi Zisling,Omri Azencot
発行日 2025-05-19 16:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling はコメントを受け付けていません

Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning

要約

最近の研究では、ドメインが固定され、一連のトレーニング問題(計画ではない)が与えられたときに、一時的なプランナーのパフォーマンスを改善するためのヒューリスティックガイダンスの統合のための補強学習(RL)の使用を調査しました。
アイデアは、トレーニングの問題を介して構築された特定の(おそらく無限状態)MDPの値関数からヒューリスティックを抽出することです。
この論文では、RLと計画段階の両方で象徴的なヒューリスティックによって提供される情報を利用することに焦点を当てたこの学習および計画の枠組みの進化を提案します。
まず、合成のために異なる報酬スキーマを正式にし、シンボリックヒューリスティックを使用して、潜在的に無限のMDPに対処するために必要なエピソードの切り捨てによって引き起こされる問題を軽減します。
第二に、既存のシンボリックヒューリスティックの残差を学ぶことを提案します。これは、ヒューリスティック全体をゼロから学ぶのではなく、ヒューリスティックな価値の「修正」です。
最後に、系統的検索と不完全な学習情報とのバランスをとるために、複数のキュー計画アプローチを使用して、象徴的なヒューリスティックと組み合わせて、学んだヒューリスティックを使用します。
私たちはすべてのアプローチを実験的に比較し、それらの長所と短所を強調し、この計画と学習スキーマの最新技術を大幅に進めます。

要約(オリジナル)

Recent work investigated the use of Reinforcement Learning (RL) for the synthesis of heuristic guidance to improve the performance of temporal planners when a domain is fixed and a set of training problems (not plans) is given. The idea is to extract a heuristic from the value function of a particular (possibly infinite-state) MDP constructed over the training problems. In this paper, we propose an evolution of this learning and planning framework that focuses on exploiting the information provided by symbolic heuristics during both the RL and planning phases. First, we formalize different reward schemata for the synthesis and use symbolic heuristics to mitigate the problems caused by the truncation of episodes needed to deal with the potentially infinite MDP. Second, we propose learning a residual of an existing symbolic heuristic, which is a ‘correction’ of the heuristic value, instead of eagerly learning the whole heuristic from scratch. Finally, we use the learned heuristic in combination with a symbolic heuristic using a multiple-queue planning approach to balance systematic search with imperfect learned information. We experimentally compare all the approaches, highlighting their strengths and weaknesses and significantly advancing the state of the art for this planning and learning schema.

arxiv情報

著者 Irene Brugnara,Alessandro Valentini,Andrea Micheli
発行日 2025-05-19 17:19:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Exploiting Symbolic Heuristics for the Synthesis of Domain-Specific Temporal Planning Guidance using Reinforcement Learning はコメントを受け付けていません

Thinkless: LLM Learns When to Think

要約

拡張されたチェーンの推論が可能な推論言語モデルは、複雑な論理推論を必要とするタスクの顕著なパフォーマンスを実証しています。
ただし、すべてのクエリに精巧な推論を適用すると、多くの場合、多くの問題が簡単な解決策を認めている場合、多くの場合、かなりの計算の非効率性が生じます。
これは、未解決の質問を動機付けます:LLMSはいつ考えるべきかを学ぶことができますか?
これに答えるために、タスクの複雑さとモデルの能力の両方に基づいて、LLMが短型と長型の推論を適応的に選択できるようにする学習可能なフレームワークであるThinkLessを提案します。
Thinklessは、強化学習パラダイムの下で訓練され、2つのコントロールトークン、簡潔な応答のために、詳細な推論のためにを採用しています。
私たちの方法の中核には、グループ相対ポリシー最適化(DEGRPO)アルゴリズムが分離されているグループがあります。これは、ハイブリッド推論の学習目標を2つのコンポーネントに分解します。(1)推論モードの選択を支配するコントロールトークン損失、および(2)生成された回答の精度を改善する応答損失。
この分離された定式化により、各目標の貢献度を細かく制御し、トレーニングを安定させ、バニラGRPOで観察される崩壊を効果的に防ぐことができます。
経験的には、Minerva Algebra、Math-500、GSM8Kなどのいくつかのベンチマークでは、Thinklessは長鎖思考の使用を50%から90%減らすことができ、推論言語モデルの効率を大幅に改善します。
このコードは、https://github.com/vainf/thinklessで入手できます

要約(オリジナル)

Reasoning Language Models, capable of extended chain-of-thought reasoning, have demonstrated remarkable performance on tasks requiring complex logical inference. However, applying elaborate reasoning for all queries often results in substantial computational inefficiencies, particularly when many problems admit straightforward solutions. This motivates an open question: Can LLMs learn when to think? To answer this, we propose Thinkless, a learnable framework that empowers an LLM to adaptively select between short-form and long-form reasoning, based on both task complexity and the model’s ability. Thinkless is trained under a reinforcement learning paradigm and employs two control tokens, for concise responses and for detailed reasoning. At the core of our method is a Decoupled Group Relative Policy Optimization (DeGRPO) algorithm, which decomposes the learning objective of hybrid reasoning into two components: (1) a control token loss that governs the selection of the reasoning mode, and (2) a response loss that improves the accuracy of the generated answers. This decoupled formulation enables fine-grained control over the contributions of each objective, stabilizing training and effectively preventing collapse observed in vanilla GRPO. Empirically, on several benchmarks such as Minerva Algebra, MATH-500, and GSM8K, Thinkless is able to reduce the usage of long-chain thinking by 50% – 90%, significantly improving the efficiency of Reasoning Language Models. The code is available at https://github.com/VainF/Thinkless

arxiv情報

著者 Gongfan Fang,Xinyin Ma,Xinchao Wang
発行日 2025-05-19 17:24:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Thinkless: LLM Learns When to Think はコメントを受け付けていません

CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition

要約

エキスパートのまばらな混合物(SMOE)は、ネットワークの深さまたは幅を増やす平均を超えて、モデルの複雑さを拡大する魅力的なソリューションを提供します。
ただし、計算を実行する専門家がルーティングプロセスに直接貢献しない最適でないルーティングプロセスのため、効果的なSMOEトレーニングは依然として困難なままであると主張します。
この作業では、競争を提案します。これは、最も高い神経反応を持つ専門家にトークンをルーティングする新しいメカニズムを提案します。
理論的には、競合メカニズムが従来のソフトマックスルーティングよりも良いサンプル効率を享受していることを示しています。
さらに、ルーターを展開して競争ポリシーを学習することにより、大規模な言語モデルをトレーニングするためのシンプルで効果的なアルゴリズムであるContermoeを開発し、低いトレーニングオーバーヘッドで強力なパフォーマンスを楽しんでいます。
視覚指導の調整と言語の両方のトレーニングタスクの両方に関する当社の広範な経験的評価は、最先端のSMOE戦略と比較して競合型の有効性、堅牢性、およびスケーラビリティを示しています。
実装をhttps://github.com/fsoft-aic/competesmoeで利用できるようにしました。
この作業は、ARXIV:2402.02526での以前の研究の改善されたバージョンです

要約(オリジナル)

Sparse mixture of experts (SMoE) offers an appealing solution to scale up the model complexity beyond the mean of increasing the network’s depth or width. However, we argue that effective SMoE training remains challenging because of the suboptimal routing process where experts that perform computation do not directly contribute to the routing process. In this work, we propose competition, a novel mechanism to route tokens to experts with the highest neural response. Theoretically, we show that the competition mechanism enjoys a better sample efficiency than the traditional softmax routing. Furthermore, we develop CompeteSMoE, a simple yet effective algorithm to train large language models by deploying a router to learn the competition policy, thus enjoying strong performances at a low training overhead. Our extensive empirical evaluations on both the visual instruction tuning and language pre-training tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE compared to state-of-the-art SMoE strategies. We have made the implementation available at: https://github.com/Fsoft-AIC/CompeteSMoE. This work is an improved version of the previous study at arXiv:2402.02526

arxiv情報

著者 Nam V. Nguyen,Huy Nguyen,Quang Pham,Van Nguyen,Savitha Ramasamy,Nhat Ho
発行日 2025-05-19 17:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CompeteSMoE — Statistically Guaranteed Mixture of Experts Training via Competition はコメントを受け付けていません

How Adding Metacognitive Requirements in Support of AI Feedback in Practice Exams Transforms Student Learning Behaviors

要約

大規模な学部のSTEMコースで規模でパーソナライズされた詳細なフィードバックを提供することは、依然として永続的な課題です。
AI生成されたフィードバックをターゲットを絞った教科書参照と統合する経験的に評価された実践試験システムを提示し、大規模な入門生物学コースに展開します。
私たちのシステムは、学生に答えを説明し、自信を宣言するように依頼することにより、メタ認知行動を奨励しています。
OpenaiのGPT-4Oを使用して、この情報に基づいてパーソナライズされたフィードバックを生成し、関連する教科書セクションに指示します。
3つの中期(それぞれ541、342、および413人の学生)にわたる同意の参加者からの相互作用ログ、146の学習目標にわたって合計28,313の質問と学生の相互作用が、279の調査と23のインタビューとともに、学習の結果とエンゲージメントへのシステムの影響を調べました。
すべての中期にわたって、フィードバックタイプは統計的に有意なパフォーマンスの違いを示しませんでしたが、一部の傾向は潜在的な利点を示唆していました。
最も大きな影響は、必要な信頼評価と説明から生じたものであり、学生は実際の試験戦略に転送したと報告しました。
学生の約40%が、フィードバックによってプロンプトされた場合、教科書の参照に従事していました。
調査データにより、高い満足度(平均評価4.1の5)が明らかになり、82.1%が実践された中間トピックに対する信頼性が高まり、73.4%が特定の概念を思い出して適用できることを示しています。
我々の調査結果は、構造化された反射要件を埋め込むことは、洗練されたフィードバックメカニズムよりも影響を与える可能性があることを示唆しています。

要約(オリジナル)

Providing personalized, detailed feedback at scale in large undergraduate STEM courses remains a persistent challenge. We present an empirically evaluated practice exam system that integrates AI generated feedback with targeted textbook references, deployed in a large introductory biology course. Our system encourages metacognitive behavior by asking students to explain their answers and declare their confidence. It uses OpenAI’s GPT-4o to generate personalized feedback based on this information, while directing them to relevant textbook sections. Through interaction logs from consenting participants across three midterms (541, 342, and 413 students respectively), totaling 28,313 question-student interactions across 146 learning objectives, along with 279 surveys and 23 interviews, we examined the system’s impact on learning outcomes and engagement. Across all midterms, feedback types showed no statistically significant performance differences, though some trends suggested potential benefits. The most substantial impact came from the required confidence ratings and explanations, which students reported transferring to their actual exam strategies. About 40 percent of students engaged with textbook references when prompted by feedback — far higher than traditional reading rates. Survey data revealed high satisfaction (mean rating 4.1 of 5), with 82.1 percent reporting increased confidence on practiced midterm topics, and 73.4 percent indicating they could recall and apply specific concepts. Our findings suggest that embedding structured reflection requirements may be more impactful than sophisticated feedback mechanisms.

arxiv情報

著者 Mak Ahmad,Prerna Ravi,David Karger,Marc Facciotti
発行日 2025-05-19 17:25:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, H.5.2 | How Adding Metacognitive Requirements in Support of AI Feedback in Practice Exams Transforms Student Learning Behaviors はコメントを受け付けていません

R3: Robust Rubric-Agnostic Reward Models

要約

報酬モデルは、言語モデルの出力を人間の好みに合わせるために不可欠ですが、既存のアプローチには、制御可能性と解釈可能性の両方に欠けていることがよくあります。
これらのモデルは通常、狭い目標のために最適化されており、一般化可能性をより広範なダウンストリームタスクに制限します。
さらに、それらのスカラー出力は、文脈上の推論なしに解釈することが困難です。
これらの制限に対処するために、R3を紹介します。R3は、評価のディメンション全体で一般化可能で、解釈可能な合理的なスコア割り当てを提供するルーブリックに依存しない新しい報酬モデリングフレームワークを紹介します。
R3は、言語モデルのより透明で柔軟な評価を可能にし、多様な人間の価値とユースケースとの堅牢な整合をサポートします。
私たちのモデル、データ、およびコードは、https://github.com/rubricreward/r3でオープンソースとして入手できます

要約(オリジナル)

Reward models are essential for aligning language model outputs with human preferences, yet existing approaches often lack both controllability and interpretability. These models are typically optimized for narrow objectives, limiting their generalizability to broader downstream tasks. Moreover, their scalar outputs are difficult to interpret without contextual reasoning. To address these limitations, we introduce R3, a novel reward modeling framework that is rubric-agnostic, generalizable across evaluation dimensions, and provides interpretable, reasoned score assignments. R3 enables more transparent and flexible evaluation of language models, supporting robust alignment with diverse human values and use cases. Our models, data, and code are available as open source at https://github.com/rubricreward/r3

arxiv情報

著者 David Anugraha,Zilu Tang,Lester James V. Miranda,Hanyang Zhao,Mohammad Rifqi Farhansyah,Garry Kuwanto,Derry Wijaya,Genta Indra Winata
発行日 2025-05-19 17:29:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | R3: Robust Rubric-Agnostic Reward Models はコメントを受け付けていません

IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar

要約

この記事では、Ig Parserの概要を説明します。これは、正式な(例:法的)規則または非公式(社会的規範的)規範の定性的コンテンツ分析を促進するソフトウェア、および戦略(慣習}と呼ばれる戦略(慣習}」) – 社会的システムを管理し、構成を記述するための構成を行うために{endyal Systemsを記述します。
この目的のために、IGパーサーは、自然言語の厳密なエンコーディングを保証する特徴的な構文を採用し、多様な分析技術を使用した下流の分析をサポートするさまざまな形式への変換を自動化します。
IGパーサーの概念コアは、関連する構文であるIGスクリプトであり、制度的文法の概念的基盤、より具体的には制度分析の分析パラダイムであるより具体的には制度的文法2.0を運用することです。
この記事では、IGパーサーを紹介します。これには、概念的な基礎、IGスクリプトの構文仕様、建築原理とともに説明されています。
この紹介には、ツールに関連する使用と利点を強調する選択的な例示的な例が拡張されています。

要約(オリジナル)

This article provides an overview of IG Parser, a software that facilitates qualitative content analysis of formal (e.g., legal) rules or informal (e.g., socio-normative) norms, and strategies (such as conventions) — referred to as \emph{institutions} — that govern social systems and operate configurally to describe \emph{institutional systems}. To this end, the IG Parser employs a distinctive syntax that ensures rigorous encoding of natural language, while automating the transformation into various formats that support the downstream analysis using diverse analytical techniques. The conceptual core of the IG Parser is an associated syntax, IG Script, that operationalizes the conceptual foundations of the Institutional Grammar, and more specifically Institutional Grammar 2.0, an analytical paradigm for institutional analysis. This article presents the IG Parser, including its conceptual foundations, syntactic specification of IG Script, alongside architectural principles. This introduction is augmented with selective illustrative examples that highlight the use and benefit associated with the tool.

arxiv情報

著者 Christopher K. Frantz
発行日 2025-05-19 17:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T30, 68T50, cs.AI, cs.CL, cs.MA, E.2 | IG Parser: A Software Package for the Encoding of Institutional Statements using the Institutional Grammar はコメントを受け付けていません