Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks

要約

迅速な注入は、意図しない出力を誘導することにより、生成AIシステムにとって重要な課題となります。
層状検出および施行メカニズムを通じて、迅速な注入脆弱性に対処するために特別に設計されたマルチエージェントNLPフレームワークを導入します。
このフレームワークは、応答を生成し、出力を消毒し、ポリシーコンプライアンスを実施するための専門的なエージェントを組み立てます。
500の設計された注入プロンプトの評価は、注入の成功と政策違反の著しい減少を示しています。
注入成功率(ISR)、ポリシーオーバーライド周波数(PO​​F)、迅速な消毒速度(PSR)、およびコンプライアンス一貫性スコア(CCS)を含む新しい指標が、複合総噴射脆弱性スコア(TIVS)を導出するために提案されています。
このシステムは、構造化されたJSONメッセージを介してエージェント間通信のためのOvon(Open Voice Network)フレームワークを利用し、幻覚緩和から以前に確立されたマルチエージェントアーキテクチャを拡張して、迅速な注入のユニークな課題に対処します。

要約(オリジナル)

Prompt injection constitutes a significant challenge for generative AI systems by inducing unintended outputs. We introduce a multi-agent NLP framework specifically designed to address prompt injection vulnerabilities through layered detection and enforcement mechanisms. The framework orchestrates specialized agents for generating responses, sanitizing outputs, and enforcing policy compliance. Evaluation on 500 engineered injection prompts demonstrates a marked reduction in injection success and policy breaches. Novel metrics, including Injection Success Rate (ISR), Policy Override Frequency (POF), Prompt Sanitization Rate (PSR), and Compliance Consistency Score (CCS), are proposed to derive a composite Total Injection Vulnerability Score (TIVS). The system utilizes the OVON (Open Voice Network) framework for inter-agent communication via structured JSON messages, extending a previously established multi-agent architecture from hallucination mitigation to address the unique challenges of prompt injection.

arxiv情報

著者 Diego Gosmar,Deborah A. Dahl,Dario Gosmar
発行日 2025-03-14 15:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks はコメントを受け付けていません

Potential of large language model-powered nudges for promoting daily water and energy conservation

要約

水とエネルギー不足に関連する圧力の増加により、個々の保全行動を栽培する緊急性が増加しました。
Nudgingの概念、つまり使用状況ベースのフィードバックを提供することは、保全行動を促進することで有望であることを示していますが、その有効性はターゲットと実用的なコンテンツの欠如によってしばしば制約されます。
この研究では、大規模な言語モデル(LLM)の使用の影響を調査して、保全の意図とその理論的根拠のために調整された保全の提案を提供します。
1,515人の大学参加者との調査実験を通じて、3つの仮想ヌッジシナリオを比較します。ナッジングなし、使用法統計との伝統的なナッジ、およびLLMを駆動するnudgingは、使用統計とパーソナライズされた保全の提案を備えています。
統計分析と因果森林モデリングの結果は、ヌードが参加者の86.9%-98.0%の保全意図の増加をもたらしたことを明らかにしています。
LLMを駆動したNudgingは、保全の意図で18.0%の最大増加を達成し、伝統的なヌードを88.6%上回りました。
さらに、構造方程式モデリングの結果は、LLMを搭載したナッジへの曝露が自己効力感と結果の期待を高め、社会的規範への依存を減少させ、それによって保存の固有の動機を高めることを明らかにしています。
これらの発見は、持続可能な行動介入と資源管理の設計における新しいフロンティアを表す、個々の水と省エネを促進する際のLLMSの変革の可能性を強調しています。

要約(オリジナル)

The increasing amount of pressure related to water and energy shortages has increased the urgency of cultivating individual conservation behaviors. While the concept of nudging, i.e., providing usage-based feedback, has shown promise in encouraging conservation behaviors, its efficacy is often constrained by the lack of targeted and actionable content. This study investigates the impact of the use of large language models (LLMs) to provide tailored conservation suggestions for conservation intentions and their rationale. Through a survey experiment with 1,515 university participants, we compare three virtual nudging scenarios: no nudging, traditional nudging with usage statistics, and LLM-powered nudging with usage statistics and personalized conservation suggestions. The results of statistical analyses and causal forest modeling reveal that nudging led to an increase in conservation intentions among 86.9%-98.0% of the participants. LLM-powered nudging achieved a maximum increase of 18.0% in conservation intentions, surpassing traditional nudging by 88.6%. Furthermore, structural equation modeling results reveal that exposure to LLM-powered nudges enhances self-efficacy and outcome expectations while diminishing dependence on social norms, thereby increasing intrinsic motivation to conserve. These findings highlight the transformative potential of LLMs in promoting individual water and energy conservation, representing a new frontier in the design of sustainable behavioral interventions and resource management.

arxiv情報

著者 Zonghan Li,Song Tong,Yi Liu,Kaiping Peng,Chunyan Wang
発行日 2025-03-14 15:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Potential of large language model-powered nudges for promoting daily water and energy conservation はコメントを受け付けていません

Standards for Belief Representations in LLMs

要約

大規模な言語モデル(LLM)は、さまざまなドメインで顕著な能力を実証し続けているため、コンピューター科学者は、特にLLMが世界についての信念を内部的に表していることに関して、認知プロセスを理解する方法を開発しています。
しかし、この分野は現在、LLMSへの信念の研究を支える統一された理論的基盤を欠いています。
この記事では、LLMの表現の妥当性条件を信念のようなものとしてカウントすることを提案することにより、このギャップを埋め始めます。
LLMSの信念測定のプロジェクトは、意思決定理論と正式な認識論で行われた信念測定と印象的な特徴を共有しているが、信念の測定方法を変えるべき方法でも異なると主張している。
したがって、機械学習の哲学と現代的な実践の洞察と現代的な実践から、理論的な考慮事項と実際の制約のバランスをとる4つの基準を確立します。
提案されている基準には、正確性、一貫性、均一性、および使用が含まれます。これらは、LLMSの信念表現を包括的に理解するための基礎を築くのに役立ちます。
私たちは、信念表現を特定するために、さまざまな基準を単独で使用することの限界を示す経験的作業を利用します。

要約(オリジナル)

As large language models (LLMs) continue to demonstrate remarkable abilities across various domains, computer scientists are developing methods to understand their cognitive processes, particularly concerning how (and if) LLMs internally represent their beliefs about the world. However, this field currently lacks a unified theoretical foundation to underpin the study of belief in LLMs. This article begins filling this gap by proposing adequacy conditions for a representation in an LLM to count as belief-like. We argue that, while the project of belief measurement in LLMs shares striking features with belief measurement as carried out in decision theory and formal epistemology, it also differs in ways that should change how we measure belief. Thus, drawing from insights in philosophy and contemporary practices of machine learning, we establish four criteria that balance theoretical considerations with practical constraints. Our proposed criteria include accuracy, coherence, uniformity, and use, which together help lay the groundwork for a comprehensive understanding of belief representation in LLMs. We draw on empirical work showing the limitations of using various criteria in isolation to identify belief representations.

arxiv情報

著者 Daniel A. Herrmann,Benjamin A. Levinstein
発行日 2025-03-14 16:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Standards for Belief Representations in LLMs はコメントを受け付けていません

Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference

要約

大規模な言語モデル(LLM)は、多数の現実世界のタスクで優れたパフォーマンスを示しています。
ただし、これらのモデルの自己回帰の性質により、推論プロセスが遅くコストがかかります。
投機的デコードは有望なソリューションとして浮上し、より小さな補助モデルを活用して将来のトークンをドラフトし、その後、より大きなモデルによって同時に検証され、1〜2倍のスピードアップを達成します。
投機的デコードは多項サンプリングと同じ分布と一致しますが、多項サンプリング自体は最適ではない出力になりやすいのに対し、ビームサンプリングは、各ステップで複数の候補シーケンスを維持することにより高品質の結果を生成するために広く認識されています。
このペーパーでは、投機的デコードとビームサンプリングの新しい統合について説明します。
ただし、4つの重要な課題があります。(1)小さなモデルからのドラフトシーケンスを与えられたより大きなモデルの分布から複数のシーケンスを生成する方法。
(2)効率と精度のバランスをとるために、ビームの数を動的に最適化する方法。
(3)複数のドラフトを並行して効率的に検証する方法。
(4)ビームサンプリングに固有の余分なメモリコストに対処する方法。
これらの課題に対処するために、動的幅の投機的ビームデコード(DSBD)を提案します。
具体的には、最初に、小さなモデルからのビームサンプリング軌跡に基づいて、大規模モデルの分布に続いて複数のシーケンスを生成する新しいドラフトと検証スキームを導入します。
次に、コンテキストに基づいてビームの数を動的に調整し、効率と有効性を最適化する適応メカニズムを導入します。
その上、ツリーベースの並列検証を拡張して、複数のツリーを同時に処理し、検証プロセスを加速します。
最後に、アルゴリズムの簡単な変更を示して、ビームサンプリングのメモリオーバーヘッドを緩和します…

要約(オリジナル)

Large language models (LLMs) have shown outstanding performance across numerous real-world tasks. However, the autoregressive nature of these models makes the inference process slow and costly. Speculative decoding has emerged as a promising solution, leveraging a smaller auxiliary model to draft future tokens, which are then validated simultaneously by the larger model, achieving a speed-up of 1-2x. Although speculative decoding matches the same distribution as multinomial sampling, multinomial sampling itself is prone to suboptimal outputs, whereas beam sampling is widely recognized for producing higher-quality results by maintaining multiple candidate sequences at each step. This paper explores the novel integration of speculative decoding with beam sampling. However, there are four key challenges: (1) how to generate multiple sequences from the larger model’s distribution given drafts sequences from the small model; (2) how to dynamically optimize the number of beams to balance efficiency and accuracy; (3) how to efficiently verify the multiple drafts in parallel; and (4) how to address the extra memory costs inherent in beam sampling. To address these challenges, we propose dynamic-width speculative beam decoding (DSBD). Specifically, we first introduce a novel draft and verification scheme that generates multiple sequences following the large model’s distribution based on beam sampling trajectories from the small model. Then, we introduce an adaptive mechanism to dynamically tune the number of beams based on the context, optimizing efficiency and effectiveness. Besides, we extend tree-based parallel verification to handle multiple trees simultaneously, accelerating the verification process. Finally, we illustrate a simple modification to our algorithm to mitigate the memory overhead of beam sampling…

arxiv情報

著者 Zongyue Qin,Zifan He,Neha Prakriya,Jason Cong,Yizhou Sun
発行日 2025-03-14 16:18:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Dynamic-Width Speculative Beam Decoding for Efficient LLM Inference はコメントを受け付けていません

Playing with words: Comparing the vocabulary and lexical diversity of ChatGPT and humans

要約

GPT(生成事前トレーニングトランス)などの人工知能(AI)生成言語モデルとChatGPTなどのツールの導入により、テキストの生成方法を変えることができる革命がトリガーされました。
たとえば、これには多くの意味があります。AIに生成されたテキストがテキストのかなりの部分になるため、これは読者の言語能力と新しいAIツールのトレーニングにも影響しますか?
それは言語の進化に影響しますか?
言語の1つの特定の側面に焦点を当てる:単語。
ChatGPTなどのツールの使用は、使用される語彙や語彙の豊かさを増加または削減しますか?
これは、AIに生成されたコンテンツに含まれていないものがますます人気が低くなり、最終的に失われる可能性があるため、言葉に影響を与えます。
この作業では、同じタスクを実行するときに、ChatGptと人間の語彙と語彙の豊かさの最初の比較を実行します。
さらに詳しくは、ChatGptと人間が回答したさまざまな種類の質問に対する回答を含む2つのデータセット、およびChatGPTが文と質問を言い換える3番目のデータセットが使用されます。
分析は、ChatGptが人間よりも異なる単語が少なく、語彙の豊かさが低い傾向があることを示しています。
これらの結果は非常に予備的なものであり、追加のデータセットとCHATGPT構成を評価して、より一般的な結論を抽出する必要があります。
したがって、CHATGPTおよびより広く生成されたAIツールの使用が、さまざまなタイプのテキストや言語の語彙と語彙の豊かさにどのように影響するかを理解するために、さらなる研究が必要です。

要約(オリジナル)

The introduction of Artificial Intelligence (AI) generative language models such as GPT (Generative Pre-trained Transformer) and tools such as ChatGPT has triggered a revolution that can transform how text is generated. This has many implications, for example, as AI-generated text becomes a significant fraction of the text, would this have an effect on the language capabilities of readers and also on the training of newer AI tools? Would it affect the evolution of languages? Focusing on one specific aspect of the language: words; will the use of tools such as ChatGPT increase or reduce the vocabulary used or the lexical richness? This has implications for words, as those not included in AI-generated content will tend to be less and less popular and may eventually be lost. In this work, we perform an initial comparison of the vocabulary and lexical richness of ChatGPT and humans when performing the same tasks. In more detail, two datasets containing the answers to different types of questions answered by ChatGPT and humans, and a third dataset in which ChatGPT paraphrases sentences and questions are used. The analysis shows that ChatGPT tends to use fewer distinct words and lower lexical richness than humans. These results are very preliminary and additional datasets and ChatGPT configurations have to be evaluated to extract more general conclusions. Therefore, further research is needed to understand how the use of ChatGPT and more broadly generative AI tools will affect the vocabulary and lexical richness in different types of text and languages.

arxiv情報

著者 Pedro Reviriego,Javier Conde,Elena Merino-Gómez,Gonzalo Martínez,José Alberto Hernández
発行日 2025-03-14 16:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Playing with words: Comparing the vocabulary and lexical diversity of ChatGPT and humans はコメントを受け付けていません

Designing Neural Synthesizers for Low Latency Interaction

要約

ニューラルオーディオ合成(NAS)モデルは、高品質で表現力のあるオーディオジェネレーターをインタラクティブな音楽制御を提供します。
これらのモデルはリアルタイムで動作する可能性がありますが、多くの場合、高い遅延に苦しむため、親密な音楽の相互作用には適していません。
オーディオレイテンシに対するディープラーニングモデルにおけるアーキテクチャの選択の影響は、NASの文献ではほとんど説明されていません。
この作業では、インタラクティブなNASモデルに通常見られるレイテンシとジッターの原因を調査します。
次に、Caillon et al。
2021年。最後に、レイテンシを最適化するための反復設計アプローチを提示します。
これは、私たちがBraveと呼ぶモデル(Bravely Realtime Audio Varionation Autoencoder)で頂点に達します。これは低遅延であり、Raveに似た音色の変更機能を示しながら、より良いピッチとラウドネスの複製を示します。
低遅延、リアルタイムの推論のための専門的な推論フレームワークに実装し、楽器からのオーディオ信号と互換性のある概念実証オーディオプラグインを提示します。
このドキュメントで説明されている課題とガイドラインは、NASの研究者がゼロから低遅延の推論のモデルを設計し、ミュージシャンの可能性の景観を豊かにすることをサポートすることを期待しています。

要約(オリジナル)

Neural Audio Synthesis (NAS) models offer interactive musical control over high-quality, expressive audio generators. While these models can operate in real-time, they often suffer from high latency, making them unsuitable for intimate musical interaction. The impact of architectural choices in deep learning models on audio latency remains largely unexplored in the NAS literature. In this work, we investigate the sources of latency and jitter typically found in interactive NAS models. We then apply this analysis to the task of timbre transfer using RAVE, a convolutional variational autoencoder for audio waveforms introduced by Caillon et al. in 2021. Finally, we present an iterative design approach for optimizing latency. This culminates with a model we call BRAVE (Bravely Realtime Audio Variational autoEncoder), which is low-latency and exhibits better pitch and loudness replication while showing timbre modification capabilities similar to RAVE. We implement it in a specialized inference framework for low-latency, real-time inference and present a proof-of-concept audio plugin compatible with audio signals from musical instruments. We expect the challenges and guidelines described in this document to support NAS researchers in designing models for low-latency inference from the ground up, enriching the landscape of possibilities for musicians.

arxiv情報

著者 Franco Caspe,Jordie Shier,Mark Sandler,Charalampos Saitis,Andrew McPherson
発行日 2025-03-14 16:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | Designing Neural Synthesizers for Low Latency Interaction はコメントを受け付けていません

Implicit Bias-Like Patterns in Reasoning Models

要約

暗黙的なバイアスとは、知覚、判断、および行動を形成する自動または自発的な精神プロセスを指します。
大規模な言語モデル(LLMS)における「暗黙のバイアス」を調べる以前の研究では、モデル処理ではなくモデル出力に焦点を当てることにより、人間で研究されている方法とは異なる現象に近づくことがよくあります。
モデル処理を調べるために、推論モデルで暗黙のバイアス様パターンを研究するための推論モデル暗黙的関連テスト(RM-IAT)と呼ばれる方法を提示します。複雑なタスクを解決するために段階的な推論を採用するLLM。
この方法を使用して、Associationに互換性のある情報と比較して、関連性のない情報を処理する際に、推論モデルにはより多くのトークンが必要であることがわかります。
これらの調査結果は、人間の暗黙的なバイアスに類似した情報処理におけるAIシステムハーバーパターンを示唆しています。
実際のアプリケーションでの展開に対するこれらの暗黙のバイアス様パターンの意味を考慮します。

要約(オリジナル)

Implicit bias refers to automatic or spontaneous mental processes that shape perceptions, judgments, and behaviors. Previous research examining `implicit bias’ in large language models (LLMs) has often approached the phenomenon differently than how it is studied in humans by focusing primarily on model outputs rather than on model processing. To examine model processing, we present a method called the Reasoning Model Implicit Association Test (RM-IAT) for studying implicit bias-like patterns in reasoning models: LLMs that employ step-by-step reasoning to solve complex tasks. Using this method, we find that reasoning models require more tokens when processing association-incompatible information compared to association-compatible information. These findings suggest AI systems harbor patterns in processing information that are analogous to human implicit bias. We consider the implications of these implicit bias-like patterns for their deployment in real-world applications.

arxiv情報

著者 Messi H. J. Lee,Calvin K. Lai
発行日 2025-03-14 16:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Implicit Bias-Like Patterns in Reasoning Models はコメントを受け付けていません

Synthesizing Access Control Policies using Large Language Models

要約

クラウド計算システムにより、管理者はプライベートデータへのアクセスを支配するアクセス制御ポリシーを書き込むことができます。
ポリシーは、AWS IDやアクセス管理ポリシー言語などの便利な言語で書かれていますが、手動で書かれたポリシーは複雑でエラーが発生しやすくなります。
このホワイトペーパーでは、アクセス制御ポリシーを合成するために、大規模な言語モデル(LLM)を使用できるかどうか、どのようにうまくいっているかを調査します。
私たちの調査では、アクセス制御要求の仕様とゼロショットを採用するタスクに焦点を当て、LLMSにリクエスト仕様を正しく順守する適切に形成されたアクセス制御ポリシーを合成するように促します。
リクエスト仕様が許可または拒否されるリクエストの具体的なリストとして指定された2つのシナリオと、許可または拒否されるリクエストのセットを指定するために自然言語の説明を使用するシナリオを検討します。
次に、ゼロショットプロンプトのために、構文ベースのアプローチを使用したより正確で構造化されたプロンプトが必要であり、アプローチを検証する予備的な結果を実験的に示していると主張します。

要約(オリジナル)

Cloud compute systems allow administrators to write access control policies that govern access to private data. While policies are written in convenient languages, such as AWS Identity and Access Management Policy Language, manually written policies often become complex and error prone. In this paper, we investigate whether and how well Large Language Models (LLMs) can be used to synthesize access control policies. Our investigation focuses on the task of taking an access control request specification and zero-shot prompting LLMs to synthesize a well-formed access control policy which correctly adheres to the request specification. We consider two scenarios, one which the request specification is given as a concrete list of requests to be allowed or denied, and another in which a natural language description is used to specify sets of requests to be allowed or denied. We then argue that for zero-shot prompting, more precise and structured prompts using a syntax based approach are necessary and experimentally show preliminary results validating our approach.

arxiv情報

著者 Adarsh Vatsa,Pratyush Patel,William Eiers
発行日 2025-03-14 16:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68P25, cs.AI, cs.CR, cs.SE | Synthesizing Access Control Policies using Large Language Models はコメントを受け付けていません

Broaden your SCOPE! Efficient Multi-turn Conversation Planning for LLMs using Semantic Space

要約

大型言語モデル(LLM)は、チャットボットまたはAIアシスタントで使用され、人間のユーザーとの会話を行います。
このようなアプリケーションでは、会話の品質(ユーザーエンゲージメント、安全性など)は重要であり、会話の終わりにしか正確に知られていません。
予想される品質を最大化するために、会話内の確率​​的遷移に関する会話計画の理由は、各ターンで最適なLLM応答を選択します。
既存のシミュレーションベースの会話計画アルゴリズムは通常、将来の会話を毎ターンで多数のLLMクエリをシミュレートすることにより、最適な応答を選択します。
ただし、このプロセスは非常に時間がかかるため、リアルタイムの会話には非現実的です。
このペーパーでは、会話計画を効率的に実行するために会話の密なセマンティック表現を活用する改善された効率(範囲)を備えたセマンティックスペース会話計画と呼ばれる新しいアプローチを紹介します。
特に、Scopeは、会話セマンティクスの確率的遷移と、それに関連する報酬をモデル化し、セマンティックスペース内で完全に計画するようにします。
これにより、シミュレーションに追加のLLMクエリを必要とせずに、会話ごとに最適なLLM応答を選択できます。
その結果、Scopeは、現実世界で見られるさまざまな会話スターターと2つの報酬機能に適用されると、従来のシミュレーションベースの計画アルゴリズムよりも70倍高速な会話計画を実行できますが、実際の計画予算内でより高い報酬を達成できます。
私たちのコードは、https://github.com/chenzhiliang94/convo-plan-scopeにあります。

要約(オリジナル)

Large language models (LLMs) are used in chatbots or AI assistants to hold conversations with a human user. In such applications, the quality (e.g., user engagement, safety) of a conversation is important and can only be exactly known at the end of the conversation. To maximize its expected quality, conversation planning reasons about the stochastic transitions within a conversation to select the optimal LLM response at each turn. Existing simulation-based conversation planning algorithms typically select the optimal response by simulating future conversations with a large number of LLM queries at every turn. However, this process is extremely time-consuming and hence impractical for real-time conversations. This paper presents a novel approach called Semantic space COnversation Planning with improved Efficiency (SCOPE) that exploits the dense semantic representation of conversations to perform conversation planning efficiently. In particular, SCOPE models the stochastic transitions in conversation semantics and their associated rewards to plan entirely within the semantic space. This allows us to select the optimal LLM response at every conversation turn without needing additional LLM queries for simulation. As a result, SCOPE can perform conversation planning 70 times faster than conventional simulation-based planning algorithms when applied to a wide variety of conversation starters and two reward functions seen in the real world, yet achieving a higher reward within a practical planning budget. Our code can be found at: https://github.com/chenzhiliang94/convo-plan-SCOPE.

arxiv情報

著者 Zhiliang Chen,Xinyuan Niu,Chuan-Sheng Foo,Bryan Kian Hsiang Low
発行日 2025-03-14 16:55:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Broaden your SCOPE! Efficient Multi-turn Conversation Planning for LLMs using Semantic Space はコメントを受け付けていません

Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing

要約

このペーパーでは、データセットの法的リスクは、ライセンス条件だけでは正確に評価できないと主張しています。
代わりに、データセットの再分配とその完全なライフサイクルの追跡が不可欠です。
ただし、このプロセスは、法律専門家が大規模に手動で処理するには複雑すぎます。
データセットの起源の追跡、再分配権の検証、および複数の段階で進化する法的リスクの評価には、人間の能力を超えるレベルの精度と効率が必要です。
この課題に対処するには、データセットの再分配を体系的に追跡し、コンプライアンスを分析し、法的リスクを特定できるAIエージェントが効果的に要求されます。
Nexusと呼ばれる自動データコンプライアンスシステムを開発し、AIがこれらのタスクを人間の専門家よりも高い精度、効率、費用対効果で実行できることを示しています。
このアプローチを使用した17,429のユニークなエンティティと8,072のライセンス条件の当社の大規模な法的分析は、再分配前の元のデータセットとその再配布されたサブセット間の法的権利の矛盾を明らかにし、データライフサイクルに認識されたコンプライアンスの必要性を強調しています。
たとえば、商業的に実行可能な個別のライセンス条件を持つ2,852のデータセットのうち、商業化には法的に許可されているのは605(21%)のみであることがわかります。
この作業は、AIデータガバナンスの新しい基準を設定し、データセットの再分配のライフサイクル全体を体系的に調べて、透明性、法的、責任あるデータセット管理を確保するフレームワークを提唱します。

要約(オリジナル)

This paper argues that a dataset’s legal risk cannot be accurately assessed by its license terms alone; instead, tracking dataset redistribution and its full lifecycle is essential. However, this process is too complex for legal experts to handle manually at scale. Tracking dataset provenance, verifying redistribution rights, and assessing evolving legal risks across multiple stages require a level of precision and efficiency that exceeds human capabilities. Addressing this challenge effectively demands AI agents that can systematically trace dataset redistribution, analyze compliance, and identify legal risks. We develop an automated data compliance system called NEXUS and show that AI can perform these tasks with higher accuracy, efficiency, and cost-effectiveness than human experts. Our massive legal analysis of 17,429 unique entities and 8,072 license terms using this approach reveals the discrepancies in legal rights between the original datasets before redistribution and their redistributed subsets, underscoring the necessity of the data lifecycle-aware compliance. For instance, we find that out of 2,852 datasets with commercially viable individual license terms, only 605 (21%) are legally permissible for commercialization. This work sets a new standard for AI data governance, advocating for a framework that systematically examines the entire lifecycle of dataset redistribution to ensure transparent, legal, and responsible dataset management.

arxiv情報

著者 Jaekyeom Kim,Sungryull Sohn,Gerrard Jeongwon Jo,Jihoon Choi,Kyunghoon Bae,Hwayoung Lee,Yongmin Park,Honglak Lee
発行日 2025-03-14 16:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing はコメントを受け付けていません