Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora

要約

大規模な言語モデル(LLM)は、多くの場合、トレーニングデータに埋め込まれた社会的バイアスを継承して増幅します。
著名な社会的偏見は、性別バイアスです。
この点で、以前の研究は、主に性別のステレオタイプ化バイアス(特定の役割または特性と特定の性別の関連)に焦点を当てており、英語で、モデルの埋め込みまたは生成された出力における性別バイアスの評価に焦点を当てています。
対照的に、性別の表現バイアス – 異なる性別の個人への参照の不平等な頻度 – トレーニングコーポラはあまり注目されていません。
しかし、トレーニングデータのこのような不均衡は、モデルライフサイクル全体で伝播し、強化できるバイアスの上流のソースを構成します。
このギャップを埋めるために、ジェンダー言語のLLMトレーニングデータにおけるジェンダー表現バイアスを検出および定量化するための新しいLLMベースの方法を提案します。
LLMSのコンテキスト理解を活用することにより、私たちのアプローチは、性別の言語コーポラの単語を自動的に識別および分類します。
4つのスペイン語と英語のベンチマークと5つのバレンシアのコーパラに適用されるこの方法は、実質的な男性優位の不均衡を明らかにしています。
トレーニングデータのこのようなバイアスはモデルの出力に影響を与えるが、驚くべきことに、反対の性別に偏っているデータセットの小規模なトレーニングを活用することを緩和することができることを示します。
私たちの調査結果は、多言語NLPにおけるコーパスレベルのジェンダーバイアス分析の必要性を強調しています。
コードとデータを公開しています。

要約(オリジナル)

Large language models (LLMs) often inherit and amplify social biases embedded in their training data. A prominent social bias is gender bias. In this regard, prior work has mainly focused on gender stereotyping bias – the association of specific roles or traits with a particular gender – in English and on evaluating gender bias in model embeddings or generated outputs. In contrast, gender representation bias – the unequal frequency of references to individuals of different genders – in the training corpora has received less attention. Yet such imbalances in the training data constitute an upstream source of bias that can propagate and intensify throughout the entire model lifecycle. To fill this gap, we propose a novel LLM-based method to detect and quantify gender representation bias in LLM training data in gendered languages, where grammatical gender challenges the applicability of methods developed for English. By leveraging the LLMs’ contextual understanding, our approach automatically identifies and classifies person-referencing words in gendered language corpora. Applied to four Spanish-English benchmarks and five Valencian corpora, our method reveals substantial male-dominant imbalances. We show that such biases in training data affect model outputs, but can surprisingly be mitigated leveraging small-scale training on datasets that are biased towards the opposite gender. Our findings highlight the need for corpus-level gender bias analysis in multilingual NLP. We make our code and data publicly available.

arxiv情報

著者 Erik Derner,Sara Sansalvador de la Fuente,Yoan Gutiérrez,Paloma Moreda,Nuria Oliver
発行日 2025-06-17 17:06:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora はコメントを受け付けていません

Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework

要約

オープンエンドのテキスト生成は、強力な(大)言語モデルの増加により、自然言語処理の顕著なタスクとなっています。
ただし、これらのモデルの品質と採用されたデコード戦略を評価することは、コヒーレンス、多様性、困惑などの広く使用されているメトリック間のトレードオフのため、依然として困難です。
このペーパーでは、オープンエンドのテキスト生成のためのマルチカリリア評価の特定の問題に対処し、デコード方法の相対的および絶対ランキングの両方の新しい方法を提案しています。
具体的には、部分的な順序に基づいてベンチマークアプローチを採用し、既存の自動インジケーターのバランスをとる新しい要約メトリックを提示し、テキスト生成品質のより全体的な評価を提供します。
私たちの実験は、提案されたアプローチがデコード戦略を比較するための堅牢な方法を提供し、オープンエンドのテキスト生成タスクのモデル選択を導く貴重なツールとして機能することを示しています。
テキスト生成における評価方法を改善し、コード、データセット、モデルを公開していることを提案します。

要約(オリジナル)

Open-ended text generation has become a prominent task in natural language processing due to the rise of powerful (large) language models. However, evaluating the quality of these models and the employed decoding strategies remains challenging due to trade-offs among widely used metrics such as coherence, diversity, and perplexity. This paper addresses the specific problem of multicriteria evaluation for open-ended text generation, proposing novel methods for both relative and absolute rankings of decoding methods. Specifically, we employ benchmarking approaches based on partial orderings and present a new summary metric to balance existing automatic indicators, providing a more holistic evaluation of text generation quality. Our experiments demonstrate that the proposed approaches offer a robust way to compare decoding strategies and serve as valuable tools to guide model selection for open-ended text generation tasks. We suggest future directions for improving evaluation methodologies in text generation and make our code, datasets, and models publicly available.

arxiv情報

著者 Esteban Garces Arias,Hannah Blocher,Julian Rodemann,Meimingwei Li,Christian Heumann,Matthias Aßenmacher
発行日 2025-06-17 17:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework はコメントを受け付けていません

Reasoning with Exploration: An Entropy Perspective

要約

探索と搾取のバランスは、強化学習(RL)の中心的な目標です。
言語モデル(LM)の推論の強化における最近の進歩にもかかわらず、ほとんどの方法は搾取に傾いており、パフォーマンスのプラトーにますます遭遇しています。
この作業では、エントロピーを再検討します – RLの探査のシグナル – は、LMSの探索的推論との関係を調べます。
経験的分析を通じて、高エントロピー領域と3種類の探索的推論アクションの間の強い正の相関を明らかにします:(1)論理的なステップを決定または接続する重要なトークン、(2)自己検証と修正などの反射的なアクション、および(3)基本LMSが把握していないまれな行動。
これにより動機付けられているため、コードの1行のみで標準RLに最小限の変更を導入します。エントロピーベースの用語でアドバンテージ関数を増強します。
不確実性を促進することで探査を促進する従来の最大エントロピー方法とは異なり、より長くより深い推論チェーンを促進することにより、探索を奨励します。
特に、私たちの方法は、非常に大きなK値で評価された場合でも、LM推論の境界を押し広げる場合でも、PASS@Kメトリック(LM推論能力の上限推定量)で大幅な利益を達成します。

要約(オリジナル)

Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy — a signal of exploration in RL — and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric — an upper-bound estimator of LM reasoning capabilities — even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.

arxiv情報

著者 Daixuan Cheng,Shaohan Huang,Xuekai Zhu,Bo Dai,Wayne Xin Zhao,Zhenliang Zhang,Furu Wei
発行日 2025-06-17 17:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reasoning with Exploration: An Entropy Perspective はコメントを受け付けていません

PredictaBoard: Benchmarking LLM Score Predictability

要約

印象的なスキルを持っているにもかかわらず、大規模な言語モデル(LLM)は予測不可能に失敗することが多く、基本的な常識推論タスクでさえ一貫性のない成功を示しています。
この予測不可能性は、信頼できる「セーフゾーン」内で特定して動作することがリスクを軽減するために不可欠であるため、安全な展開を確保することに大きな課題をもたらします。
これに対処するために、既存のデータセットから特定のタスクインスタンス(つまり、プロンプト)でLLMエラーを予測するスコア予測因子(評価者と呼ばれる)の能力を評価するために設計された新しい共同ベンチマークフレームワークであるPredictAboardを提示します。
PredictAboardは、異なる許容誤差で拒否率を考慮することにより、LLMと評価者のペアを評価します。
そのため、Predictaboardは、より高い平均パフォーマンスだけでなく、より良い評価者の開発とLLMをより予測可能にするための研究を刺激します。
ベースライン評価者と最先端のLLMを使用して、例示的な実験を実施します。
PredictAboardは、パフォーマンスとともに予測可能性を評価する重要なニーズを強調し、エラーが最小化されているだけでなく、予想され、効果的に緩和されるより安全なAIシステムへの道を開きます。
ベンチマークのコードは、https://github.com/kinds-of-intelligence-cfi/predictaboardにあります

要約(オリジナル)

Despite possessing impressive skills, Large Language Models (LLMs) often fail unpredictably, demonstrating inconsistent success in even basic common sense reasoning tasks. This unpredictability poses a significant challenge to ensuring their safe deployment, as identifying and operating within a reliable ‘safe zone’ is essential for mitigating risks. To address this, we present PredictaBoard, a novel collaborative benchmarking framework designed to evaluate the ability of score predictors (referred to as assessors) to anticipate LLM errors on specific task instances (i.e., prompts) from existing datasets. PredictaBoard evaluates pairs of LLMs and assessors by considering the rejection rate at different tolerance errors. As such, PredictaBoard stimulates research into developing better assessors and making LLMs more predictable, not only with a higher average performance. We conduct illustrative experiments using baseline assessors and state-of-the-art LLMs. PredictaBoard highlights the critical need to evaluate predictability alongside performance, paving the way for safer AI systems where errors are not only minimised but also anticipated and effectively mitigated. Code for our benchmark can be found at https://github.com/Kinds-of-Intelligence-CFI/PredictaBoard

arxiv情報

著者 Lorenzo Pacchiardi,Konstantinos Voudouris,Ben Slater,Fernando Martínez-Plumed,José Hernández-Orallo,Lexin Zhou,Wout Schellaert
発行日 2025-06-17 14:34:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, stat.ML | PredictaBoard: Benchmarking LLM Score Predictability はコメントを受け付けていません

Object-Centric Neuro-Argumentative Learning

要約

過去10年間、私たちは深い学習技術にもっと頼って重要な決定を下すため、その安全性、信頼性、解釈性に関する懸念が浮上しています。
仮定ベースの議論(ABA)を画像分析のための深い学習と統合する新しい神経論争学習(NAL)アーキテクチャを紹介します。
私たちのアーキテクチャは、神経および象徴的なコンポーネントで構成されています。
前のセグメントとオブジェクト中心の学習を使用して画像を事実にエンコードし、後者はABA学習を適用してABAフレームワークを開発し、画像で予測を可能にします。
合成データの実験は、NALアーキテクチャが最先端の代替品と競争力があることを示しています。

要約(オリジナル)

Over the last decade, as we rely more on deep learning technologies to make critical decisions, concerns regarding their safety, reliability and interpretability have emerged. We introduce a novel Neural Argumentative Learning (NAL) architecture that integrates Assumption-Based Argumentation (ABA) with deep learning for image analysis. Our architecture consists of neural and symbolic components. The former segments and encodes images into facts using object-centric learning, while the latter applies ABA learning to develop ABA frameworks enabling predictions with images. Experiments on synthetic data show that the NAL architecture can be competitive with a state-of-the-art alternative.

arxiv情報

著者 Abdul Rahman Jacob,Avinash Kori,Emanuele De Angelis,Ben Glocker,Maurizio Proietti,Francesca Toni
発行日 2025-06-17 14:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Object-Centric Neuro-Argumentative Learning はコメントを受け付けていません

GenerationPrograms: Fine-grained Attribution with Executable Programs

要約

最近の大規模な言語モデル(LLMS)は、ソースコンディショニングされたテキスト生成で印象的なパフォーマンスを実現しますが、多くの場合、出力に細粒の属性を正しく提供できず、検証可能性と信頼を損ないます。
さらに、既存の帰属方法では、モデルが提供されたソースドキュメントを活用して最終的な応答を生成し、解釈可能性を制限する方法と理由を説明していません。
これらの課題を克服するために、実行可能ファイルの「コードエージェント」アーキテクチャの最近の進歩に触発されたモジュラー生成フレームワーク、GenerationProgramsを紹介します。
出力と帰属を同時に生成したり、事後帰属に依存したりする従来の生成方法とは異なり、GenerationProgramsはプロセスを2つの異なる段階に分解します。1つ目は、モジュラーテキスト操作(言い換え、圧縮、融合など)で構成される実行可能なプログラム計画を作成します。
実証的評価は、2つの長期にわたる長期の質問回答タスクとマルチドキュメントの要約タスクにわたって、ドキュメントレベルと文レベルの両方で、世代プログラムが属性の品質を大幅に向上させることを示しています。
さらに、生成プログラムは事後帰属法として効果的に機能し、正確な属性を回復する際の従来の技術を上回ることができることを実証します。
さらに、GenerationProgramsによって生成された解釈可能なプログラムは、全体的な帰属品質をさらに高めるモジュラーレベルの改善を通じてローカライズされた改良を可能にします。

要約(オリジナル)

Recent large language models (LLMs) achieve impressive performance in source-conditioned text generation but often fail to correctly provide fine-grained attributions for their outputs, undermining verifiability and trust. Moreover, existing attribution methods do not explain how and why models leverage the provided source documents to generate their final responses, limiting interpretability. To overcome these challenges, we introduce a modular generation framework, GenerationPrograms, inspired by recent advancements in executable ‘code agent’ architectures. Unlike conventional generation methods that simultaneously generate outputs and attributions or rely on post-hoc attribution, GenerationPrograms decomposes the process into two distinct stages: first, creating an executable program plan composed of modular text operations (such as paraphrasing, compression, and fusion) explicitly tailored to the query, and second, executing these operations following the program’s specified instructions to produce the final response. Empirical evaluations demonstrate that GenerationPrograms significantly improves attribution quality at both the document level and sentence level across two long-form question-answering tasks and a multi-document summarization task. We further demonstrate that GenerationPrograms can effectively function as a post-hoc attribution method, outperforming traditional techniques in recovering accurate attributions. In addition, the interpretable programs generated by GenerationPrograms enable localized refinement through modular-level improvements that further enhance overall attribution quality.

arxiv情報

著者 David Wan,Eran Hirsch,Elias Stengel-Eskin,Ido Dagan,Mohit Bansal
発行日 2025-06-17 14:37:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | GenerationPrograms: Fine-grained Attribution with Executable Programs はコメントを受け付けていません

From tools to thieves: Measuring and understanding public perceptions of AI through crowdsourced metaphors

要約

人工知能(AI)ベースのテクノロジーの増加する有病率にどのように対応しましたか?
全国的に代表的な米国のサンプルから12か月にわたって12,000を超える回答を収集することにより、AIの国民の認識を調査します。
参加者は、AIのメンタルモデルを反映したオープンエンドのメタファーを提供しました。これは、より多くのニュアンスを獲得することにより、従来の自己申告による対策の限界を克服する方法論です。
定量的クラスタリングと定性的コーディングを組み合わせた混合メソッドアプローチを使用して、AIの一般的な理解を形成する20の支配的なメタファーを特定します。
これらのメタファーを体系的に分析するために、言語モデリング(LM)ベースの手法を統合するスケーラブルなフレームワークを提示して、一般的な知覚の重要な次元を測定します:擬人化(人間のような性質の帰属)、暖かさ、競争力。
アメリカ人は一般的にAIを温かく有能であると考えており、過去1年間、AIの人間性と暖かさの認識が大幅に増加していることがわかります($ +34 \%、r = 0.80、p <0.01; +41 \%、r = 0.62、p <0.05 $)。 これらの暗黙の認識は、特定された支配的な比phorとともに、AI($ r^2 = 0.21、0.18、p <0.001 $)に対する信頼と意欲を強く予測します。 さらに、女性、高齢者、擬人化に対する有色人種の傾向が高く、信頼と養子縁組における人口統計的格差に光を当てるなど、比phorと暗黙の認識の体系的な人口統計上の違いを明らかにします。 進化する公共の態度を追跡するためのデータセットとフレームワークに加えて、包括的かつ責任あるAI開発に比phorを使用することについての実用的な洞察を提供します。

要約(オリジナル)

How has the public responded to the increasing prevalence of artificial intelligence (AI)-based technologies? We investigate public perceptions of AI by collecting over 12,000 responses over 12 months from a nationally representative U.S. sample. Participants provided open-ended metaphors reflecting their mental models of AI, a methodology that overcomes the limitations of traditional self-reported measures by capturing more nuance. Using a mixed-methods approach combining quantitative clustering and qualitative coding, we identify 20 dominant metaphors shaping public understanding of AI. To analyze these metaphors systematically, we present a scalable framework integrating language modeling (LM)-based techniques to measure key dimensions of public perception: anthropomorphism (attribution of human-like qualities), warmth, and competence. We find that Americans generally view AI as warm and competent, and that over the past year, perceptions of AI’s human-likeness and warmth have significantly increased ($+34\%, r = 0.80, p < 0.01; +41\%, r = 0.62, p < 0.05$). These implicit perceptions, along with the identified dominant metaphors, strongly predict trust in and willingness to adopt AI ($r^2 = 0.21, 0.18, p < 0.001$). Moreover, we uncover systematic demographic differences in metaphors and implicit perceptions, such as the higher propensity of women, older individuals, and people of color to anthropomorphize AI, which shed light on demographic disparities in trust and adoption. In addition to our dataset and framework for tracking evolving public attitudes, we provide actionable insights on using metaphors for inclusive and responsible AI development.

arxiv情報

著者 Myra Cheng,Angela Y. Lee,Kristina Rapuano,Kate Niederhoffer,Alex Liebscher,Jeffrey Hancock
発行日 2025-06-17 14:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | From tools to thieves: Measuring and understanding public perceptions of AI through crowdsourced metaphors はコメントを受け付けていません

No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need!

要約

私たちは、リソースの制約の下でオンラインの意思決定の問題を研究しています。ここでは、報酬とコスト機能の両方が、時間の経過とともに敵対的に変化する可能性のある分布から引き出されます。
2つの標準設定に焦点を当てます。$(i)$オンラインリソース割り当ては、アクション選択の前に報酬とコストが観察される場合、およびアクション選択後に観察されるリソースの制約を備えた$(ii)$オンライン学習、完全なフィードバックまたはバンディットフィードバックです。
報酬とコスト分布が時間の経過とともにarbitrarily意的に変化する可能性がある場合、これらの設定でサブリンの後悔を達成することは不可能であることはよく知られています。
この課題に対処するために、学習者が支出計画に導かれるフレームワークを分析します。これは、ラウンド全体で予想されるリソースの使用を規定するシーケンスです。
支出計画に続くベースラインに関してサブリンの後悔を達成する一般的な(プライマル)デュアル方法を設計します。
重要なことに、支出計画がラウンド全体で予算のバランスの取れた分布を保証すると、アルゴリズムのパフォーマンスが向上します。
さらに、支出計画が非常に不均衡な最悪のシナリオを処理するための方法の堅牢なバリアントを提供します。
結論として、規定の支出計画から逸脱するベンチマークと競合する際に、アルゴリズムの後悔を研究します。

要約(オリジナル)

We study online decision making problems under resource constraints, where both reward and cost functions are drawn from distributions that may change adversarially over time. We focus on two canonical settings: $(i)$ online resource allocation where rewards and costs are observed before action selection, and $(ii)$ online learning with resource constraints where they are observed after action selection, under full feedback or bandit feedback. It is well known that achieving sublinear regret in these settings is impossible when reward and cost distributions may change arbitrarily over time. To address this challenge, we analyze a framework in which the learner is guided by a spending plan–a sequence prescribing expected resource usage across rounds. We design general (primal-)dual methods that achieve sublinear regret with respect to baselines that follow the spending plan. Crucially, the performance of our algorithms improves when the spending plan ensures a well-balanced distribution of the budget across rounds. We additionally provide a robust variant of our methods to handle worst-case scenarios where the spending plan is highly imbalanced. To conclude, we study the regret of our algorithms when competing against benchmarks that deviate from the prescribed spending plan.

arxiv情報

著者 Francesco Emanuele Stradi,Matteo Castiglioni,Alberto Marchesi,Nicola Gatti,Christian Kroer
発行日 2025-06-17 14:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! はコメントを受け付けていません

Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG

要約

LLMは脆弱性の検出において有望な可能性を示していますが、この研究は、脆弱性と類似のパッチされたコード(0.06-0.14の精度のみ)を区別する際の限界を明らかにしています。
LLMSは、脆弱性検出中の脆弱性の根本原因を捉えるのに苦労していることを示しています。
この課題に対処するために、歴史的脆弱性や修正から蒸留された多次元脆弱性の知識を持つLLMを強化することを提案します。
私たちは、新しい知識レベルの検索された生成フレームワークVUL-RAGを設計します。これにより、脆弱なコードとパッチ付きコードの識別が16%〜24%の精度が向上し、LLMSが改善されます。
さらに、VUL-RAGによって生成された脆弱性の知識はさらに(1)手動検出の精度を改善するための高品質の説明として機能し(60%から77%)、(2)6個の割り当てられたCVEで最近のLinuxカーネルリリースで以前に知られていないバグを検出できます。

要約(オリジナル)

Although LLMs have shown promising potential in vulnerability detection, this study reveals their limitations in distinguishing between vulnerable and similar-but-benign patched code (only 0.06 – 0.14 accuracy). It shows that LLMs struggle to capture the root causes of vulnerabilities during vulnerability detection. To address this challenge, we propose enhancing LLMs with multi-dimensional vulnerability knowledge distilled from historical vulnerabilities and fixes. We design a novel knowledge-level Retrieval-Augmented Generation framework Vul-RAG, which improves LLMs with an accuracy increase of 16% – 24% in identifying vulnerable and patched code. Additionally, vulnerability knowledge generated by Vul-RAG can further (1) serve as high-quality explanations to improve manual detection accuracy (from 60% to 77%), and (2) detect 10 previously-unknown bugs in the recent Linux kernel release with 6 assigned CVEs.

arxiv情報

著者 Xueying Du,Geng Zheng,Kaixin Wang,Yi Zou,Yujia Wang,Wentai Deng,Jiayi Feng,Mingwei Liu,Bihuan Chen,Xin Peng,Tao Ma,Yiling Lou
発行日 2025-06-17 15:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG はコメントを受け付けていません

Graph RAG for Legal Norms: A Hierarchical, Temporal and Deterministic Approach

要約

この記事では、法的規範の分析と理解のために特別に設計されたグラフ検索の高級生成(グラフrag)の適応を提案します。
法的テキストは、事前に定義された階層構造、参照の広範なネットワーク、および複数の時間バージョンによる連続的な進化によって特徴付けられます。
この時間的ダイナミズムは、標準的なAIシステムに大きな課題をもたらし、任意の時点で法律の決定論的表現を要求します。
これに対処するために、私たちのアプローチは、抽象的な法的作品を具体的なテキスト表現と区別する、正式なFrbrooに触発されたモデルの知識グラフ構造を根拠としています。
時間バージョン(日付固有の変更のキャプチャ)と言語バージョン(言語のバリエーションのキャプチャ)の多層表現を紹介します。
これらのバージョンされたエンティティの正確なシーケンスとして規範的進化をモデル化することにより、検証可能な「グラウンドトゥルース」として機能する知識グラフの構築を可能にします。
これにより、大規模な言語モデルは、正確、コンテキストを意識した、ポイントインタイムの正しい法的情報に基づいて応答を生成し、時間的な不正確さのリスクを克服できます。
この正式なグラフRAGアプローチと法的規範データセットへの適用の詳細な分析を通じて、この記事は、法律に適用される人工知能の分野を前進させ、法的研究、立法分析、意思決定支援においてより効果的で信頼できるシステムの機会を生み出すことを目的としています。

要約(オリジナル)

This article proposes an adaptation of Graph Retrieval-Augmented Generation (Graph RAG) specifically designed for the analysis and comprehension of legal norms. Legal texts are characterized by a predefined hierarchical structure, an extensive network of references and a continuous evolution through multiple temporal versions. This temporal dynamism poses a significant challenge for standard AI systems, demanding a deterministic representation of the law at any given point in time. To address this, our approach grounds the knowledge graph construction in a formal, FRBRoo-inspired model that distinguishes abstract legal works from their concrete textual expressions. We introduce a multi-layered representation of Temporal Versions (capturing date-specific changes) and Language Versions (capturing linguistic variations). By modeling normative evolution as a precise sequence of these versioned entities, we enable the construction of a knowledge graph that serves as a verifiable ‘ground truth’. This allows Large Language Models to generate responses based on accurate, context-aware, and point-in-time correct legal information, overcoming the risk of temporal inaccuracies. Through a detailed analysis of this formal Graph RAG approach and its application to legal norm datasets, this article aims to advance the field of Artificial Intelligence applied to Law, creating opportunities for more effective and reliable systems in legal research, legislative analysis, and decision support.

arxiv情報

著者 Hudson de Martim
発行日 2025-06-17 15:18:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Graph RAG for Legal Norms: A Hierarchical, Temporal and Deterministic Approach はコメントを受け付けていません