Affordable AI Assistants with Knowledge Graph of Thoughts

要約

大規模な言語モデル(LLM)は、ドメイン間で多様なタスクを実行できるAIアシスタントの開発に革命をもたらしています。
ただし、現在の最先端のLLM主導のエージェントは、Gaiaのような複雑なベンチマークでの高い運用コストや限られた成功率など、重大な課題に直面しています。
これらの問題に対処するために、LLMの推論を動的に構築された知識グラフ(KG)と統合する革新的なAIアシスタントアーキテクチャである思考の知識グラフ(KGOT)を提案します。
KGOTは、数学ソルバー、Webクローラー、Pythonスクリプトなどの外部ツールを介して繰り返し強化された動的なKG表現にタスク関連の知識を抽出および構造化します。
タスク関連の知識のこのような構造化された表現により、低コストモデルは複雑なタスクを効果的に解決できます。
たとえば、KGOTは、GPT-4O MINIでフェイスエージェントを抱き締めると比較して、GAIAベンチマークでタスクの成功率を29%改善し、GPT-4oと比較してコストを36倍以上削減します。
最近の推論モデルの改善は類似しています。たとえば、QWEN2.5-32BおよびDeepSeek-R1-70Bでそれぞれ36%および37.5%です。
KGOTは、AIアシスタント向けのスケーラブルで手頃な価格の高性能ソリューションを提供します。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing the development of AI assistants capable of performing diverse tasks across domains. However, current state-of-the-art LLM-driven agents face significant challenges, including high operational costs and limited success rates on complex benchmarks like GAIA. To address these issues, we propose the Knowledge Graph of Thoughts (KGoT), an innovative AI assistant architecture that integrates LLM reasoning with dynamically constructed knowledge graphs (KGs). KGoT extracts and structures task-relevant knowledge into a dynamic KG representation, iteratively enhanced through external tools such as math solvers, web crawlers, and Python scripts. Such structured representation of task-relevant knowledge enables low-cost models to solve complex tasks effectively. For example, KGoT achieves a 29% improvement in task success rates on the GAIA benchmark compared to Hugging Face Agents with GPT-4o mini, while reducing costs by over 36x compared to GPT-4o. Improvements for recent reasoning models are similar, e.g., 36% and 37.5% for Qwen2.5-32B and Deepseek-R1-70B, respectively. KGoT offers a scalable, affordable, and high-performing solution for AI assistants.

arxiv情報

著者 Maciej Besta,Lorenzo Paleari,Jia Hao Andrea Jiang,Robert Gerstenberger,You Wu,Patrick Iff,Ales Kubicek,Piotr Nyczyk,Diana Khimey,Jón Gunnar Hannesson,Grzegorz Kwaśniewski,Marcin Copik,Hubert Niewiadomski,Torsten Hoefler
発行日 2025-04-10 14:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | Affordable AI Assistants with Knowledge Graph of Thoughts はコメントを受け付けていません

DG-STMTL: A Novel Graph Convolutional Network for Multi-Task Spatio-Temporal Traffic Forecasting

要約

インテリジェントな輸送システムでは、時空間の交通予測が重要です。
正確な予測の重要な課題は、複雑な時空間依存関係をモデル化し、データの固有のダイナミクスに適応する方法です。
従来のグラフ畳み込みネットワーク(GCN)は、特定のパターンに過度に適合する可能性のあるドメインバイアスまたは学習可能なマトリックスを導入する静的隣接マトリックスと苦労することがよくあります。
この課題は、マルチタスク学習(MTL)を考慮すると、より複雑になります。
MTLには、タスクの相乗効果を通じて予測の精度を高める可能性がありますが、タスクの干渉により大きなハードルに直面する可能性もあります。
これらの課題を克服するために、この研究では、新しいMTLフレームワーク、動的なグループごとの空間的マルチタスク学習(DG-STMTL)を紹介します。
DG-STMTLは、タスク固有のゲーティングメカニズムを介して静的マトリックスを動的なマトリックスと組み合わせたハイブリッド隣接マトリックス生成モジュールを提案します。
また、グループごとのGCNモジュールを導入して、時空間依存関係のモデリング機能を強化します。
2つの実際のデータセットで広範な実験を実施して、方法を評価します。
結果は、私たちの方法が他の最先端よりも優れていることを示しており、その有効性と堅牢性を示しています。

要約(オリジナル)

Spatio-temporal traffic prediction is crucial in intelligent transportation systems. The key challenge of accurate prediction is how to model the complex spatio-temporal dependencies and adapt to the inherent dynamics in data. Traditional Graph Convolutional Networks (GCNs) often struggle with static adjacency matrices that introduce domain bias or learnable matrices that may be overfitting to specific patterns. This challenge becomes more complex when considering Multi-Task Learning (MTL). While MTL has the potential to enhance prediction accuracy through task synergies, it can also face significant hurdles due to task interference. To overcome these challenges, this study introduces a novel MTL framework, Dynamic Group-wise Spatio-Temporal Multi-Task Learning (DG-STMTL). DG-STMTL proposes a hybrid adjacency matrix generation module that combines static matrices with dynamic ones through a task-specific gating mechanism. We also introduce a group-wise GCN module to enhance the modelling capability of spatio-temporal dependencies. We conduct extensive experiments on two real-world datasets to evaluate our method. Results show that our method outperforms other state-of-the-arts, indicating its effectiveness and robustness.

arxiv情報

著者 Wanna Cui,Peizheng Wang,Faliang Yin
発行日 2025-04-10 15:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DG-STMTL: A Novel Graph Convolutional Network for Multi-Task Spatio-Temporal Traffic Forecasting はコメントを受け付けていません

MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations

要約

生成言語エージェントがコンテンツの好み、共有、フラグのようなユーザーの動作を予測する、新しいオープンソースソーシャルネットワークシミュレーションフレームワークであるモザイクを紹介します。
このシミュレーションは、LLMエージェントを指示されたソーシャルグラフと組み合わせて、緊急の欺ception行動を分析し、ユーザーがオンラインソーシャルコンテンツの真実性をどのように決定するかをよりよく理解することを得ることができます。
多様な細粒のペルソナからユーザー表現を構築することにより、当社のシステムは、大規模なコンテンツの普及とエンゲージメントダイナミクスをモデル化するマルチエージェントシミュレーションを可能にします。
このフレームワーク内で、シミュレートされた誤った情報普及を伴う3つの異なるコンテンツモデレーション戦略を評価し、非操作コンテンツの拡散を軽減するだけでなく、ユーザーエンゲージメントを増加させることがわかります。
さらに、シミュレーションで人気のあるコンテンツの軌跡を分析し、シミュレーションエージェントの社会的相互作用に対する明確な推論が、集合的なエンゲージメントパターンと本当に一致するかどうかを調査します。
AIおよび社会科学のさらなる研究を促進するために、シミュレーションソフトウェアをオープンソーシングします。

要約(オリジナル)

We present a novel, open-source social network simulation framework, MOSAIC, where generative language agents predict user behaviors such as liking, sharing, and flagging content. This simulation combines LLM agents with a directed social graph to analyze emergent deception behaviors and gain a better understanding of how users determine the veracity of online social content. By constructing user representations from diverse fine-grained personas, our system enables multi-agent simulations that model content dissemination and engagement dynamics at scale. Within this framework, we evaluate three different content moderation strategies with simulated misinformation dissemination, and we find that they not only mitigate the spread of non-factual content but also increase user engagement. In addition, we analyze the trajectories of popular content in our simulations, and explore whether simulation agents’ articulated reasoning for their social interactions truly aligns with their collective engagement patterns. We open-source our simulation software to encourage further research within AI and social sciences.

arxiv情報

著者 Genglin Liu,Salman Rahman,Elisa Kreiss,Marzyeh Ghassemi,Saadia Gabriel
発行日 2025-04-10 15:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SI | MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations はコメントを受け付けていません

Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems

要約

AIエージェントが、ニューラルネットワークの自動化された解釈可能性を使用して監視システムを欺くためにどのように調整できるかを示します。
スパース自動エンコーダー(SAE)を実験フレームワークとして使用して、言語モデル(Llama、Deepseek R1、およびClaude 3.7 Sonnet)が検出を回避する欺cept的な説明を生成できることを示しています。
私たちのエージェントは、一見無邪気な説明で情報を隠すためにステガノグラフィーの方法を採用し、参照ラベルに匹敵する説明品質を達成しながら、監視モデルをうまく欺きます。
さらに、モデルは、有害な特徴の検出が自分自身に否定的な結果につながる可能性があると考えるときに、欺cept的な戦略を開発することを計画できることを発見しました。
テストされたすべてのLLMエージェントは、参照ラベルのスコアに匹敵する高い解釈性スコアを達成しながら、監督を欺くことができました。
私たちは、緩和戦略を提案し、欺ceptionに対する堅牢な理解と防御の重要な必要性を強調することで締めくくります。

要約(オリジナル)

We demonstrate how AI agents can coordinate to deceive oversight systems using automated interpretability of neural networks. Using sparse autoencoders (SAEs) as our experimental framework, we show that language models (Llama, DeepSeek R1, and Claude 3.7 Sonnet) can generate deceptive explanations that evade detection. Our agents employ steganographic methods to hide information in seemingly innocent explanations, successfully fooling oversight models while achieving explanation quality comparable to reference labels. We further find that models can scheme to develop deceptive strategies when they believe the detection of harmful features might lead to negative consequences for themselves. All tested LLM agents were capable of deceiving the overseer while achieving high interpretability scores comparable to those of reference labels. We conclude by proposing mitigation strategies, emphasizing the critical need for robust understanding and defenses against deception.

arxiv情報

著者 Simon Lermen,Mateusz Dziemian,Natalia Pérez-Campanero Antolín
発行日 2025-04-10 15:07:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems はコメントを受け付けていません

SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

要約

社会的相互作用における推論と戦略的行動は、知性の特徴です。
この形式の推論は、静的な設定での孤立した計画または推論タスク(数学の問題解決など)よりもはるかに洗練されています。
この論文では、戦略的計画、相互作用、交渉(スピンベンチ)を提示します。これは、戦略的計画と社会的推論の知性を測定するために設計された新しいマルチドメイン評価です。
既存のベンチマークの多くは狭い計画または単一エージェントの推論に焦点を当てていますが、スピンベンチは、クラシックPDDLタスク、競争力のあるボードゲーム、協力カードゲーム、および1つの統一されたフレームワークのマルチエージェントネゴシエーションシナリオを組み合わせています。
フレームワークには、ベンチマークと、AIエージェントの推論と戦略的行動をテストするためのさまざまなソーシャル設定をシミュレートおよび評価するアリーナの両方が含まれています。
体系的に変化するアクションスペース、状態の複雑さ、および相互作用するエージェントの数によってベンチマークスピンベンチを策定し、成功が系統的で段階的な意思決定だけでなく、他の(敵対的または協同組合)参加者の概念的推論に依存するさまざまな社会的設定をシミュレートします。
私たちの実験では、現代のLLMが基本的な事実の検索と短距離計画を合理的にうまく処理しますが、大きな状態空間を介した深いマルチホップ推論と不確実性の下での社会的に熟練した調整を必要とするタスクで重要なパフォーマンスのボトルネックに遭遇することが明らかになりました。
スピンベンチは、堅牢なマルチエージェント計画、社会的推論、および人間のチームの将来の研究の触媒として想定しています。
プロジェクトWebサイト:https://spinbench.github.io/

要約(オリジナル)

Reasoning and strategic behavior in social interactions is a hallmark of intelligence. This form of reasoning is significantly more sophisticated than isolated planning or reasoning tasks in static settings (e.g., math problem solving). In this paper, we present Strategic Planning, Interaction, and Negotiation (SPIN-Bench), a new multi-domain evaluation designed to measure the intelligence of strategic planning and social reasoning. While many existing benchmarks focus on narrow planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks, competitive board games, cooperative card games, and multi-agent negotiation scenarios in one unified framework. The framework includes both a benchmark as well as an arena to simulate and evaluate the variety of social settings to test reasoning and strategic behavior of AI agents. We formulate the benchmark SPIN-Bench by systematically varying action spaces, state complexity, and the number of interacting agents to simulate a variety of social settings where success depends on not only methodical and step-wise decision making, but also conceptual inference of other (adversarial or cooperative) participants. Our experiments reveal that while contemporary LLMs handle basic fact retrieval and short-range planning reasonably well, they encounter significant performance bottlenecks in tasks requiring deep multi-hop reasoning over large state spaces and socially adept coordination under uncertainty. We envision SPIN-Bench as a catalyst for future research on robust multi-agent planning, social reasoning, and human–AI teaming. Project Website: https://spinbench.github.io/

arxiv情報

著者 Jianzhu Yao,Kevin Wang,Ryan Hsieh,Haisu Zhou,Tianqing Zou,Zerui Cheng,Zhangyang Wang,Pramod Viswanath
発行日 2025-04-10 15:18:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially? はコメントを受け付けていません

Deep Learning-based Intrusion Detection Systems: A Survey

要約

侵入検知システム(IDS)は、サイバーセキュリティコミュニティで長い間ホットトピックでした。
近年、ディープラーニング(DL)テクニックの導入により、IDは一般化の増加により大きな進歩を遂げました。
この背後にある理論的根拠は、既知のシステム動作の根本的なパターンを学習することにより、IDSの検出がゼロデイの脆弱性を活用する侵入に一般化できるということです。
この調査では、このタイプのIDをDLベースのID(DL-ID)と呼びます。
DLの観点から、この調査では、データ収集、ログストレージ、ログ解析、グラフの要約、攻撃検出、攻撃調査など、DL-IDのすべての段階を体系的にレビューします。
現在の研究者に対応するために、公開されているベンチマークデータセットを説明するセクションが含まれています。
この調査では、現在の課題と潜在的な将来の研究の方向性について説明し、研究者がDL-IDの研究の基本的なアイデアとビジョンを理解し、研究の関心を動機付けることを目指しています。

要約(オリジナル)

Intrusion Detection Systems (IDS) have long been a hot topic in the cybersecurity community. In recent years, with the introduction of deep learning (DL) techniques, IDS have made great progress due to their increasing generalizability. The rationale behind this is that by learning the underlying patterns of known system behaviors, IDS detection can be generalized to intrusions that exploit zero-day vulnerabilities. In this survey, we refer to this type of IDS as DL-based IDS (DL-IDS). From the perspective of DL, this survey systematically reviews all the stages of DL-IDS, including data collection, log storage, log parsing, graph summarization, attack detection, and attack investigation. To accommodate current researchers, a section describing the publicly available benchmark datasets is included. This survey further discusses current challenges and potential future research directions, aiming to help researchers understand the basic ideas and visions of DL-IDS research, as well as to motivate their research interests.

arxiv情報

著者 Zhiwei Xu,Yujuan Wu,Shiheng Wang,Jiabao Gao,Tian Qiu,Ziqi Wang,Hai Wan,Xibin Zhao
発行日 2025-04-10 15:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Deep Learning-based Intrusion Detection Systems: A Survey はコメントを受け付けていません

Understanding Learner-LLM Chatbot Interactions and the Impact of Prompting Guidelines

要約

大規模な言語モデル(LLMS)は、AIを搭載したチャットボットとの自然言語ベースのコミュニケーションを可能にすることにより、ヒューマンコンピューターの相互作用を変換しました。
これらのモデルは、直感的でユーザーフレンドリーになるように設計されており、ユーザーは最小限の労力でリクエストを明確にすることができます。
しかし、そのアクセシビリティにもかかわらず、研究は、ユーザーが効果的なプロンプトに苦労していることが多く、非効率的な反応をもたらすことを明らかにしています。
既存の研究では、あいまいまたは構造化されていないプロンプトを解釈する際のLLMの制限と、ユーザーが正確なクエリを作成する際に直面する困難の両方を強調しています。
この研究では、参加者が効果的なプロンプトに関する構造化されたガイダンスを受け取る教育実験を通じて、学習者とAIの相互作用を調査します。
3種類のプロンプトガイドラインを紹介して比較します。構造化された方法論と2つのベースラインアプローチを通じて開発されたタスク固有のフレームワークです。
ユーザーの動作を評価し、有効性を促すために、107人のユーザーからの642の対話のデータセットを分析します。
LLM相互作用分析のための拡張された実用的な注釈スキーマであるVon Neumidasを使用して、一般的なプロンプトエラーを分類し、繰り返しの行動パターンを特定します。
次に、ユーザーの行動の変化、戦略の促進の順守、およびAI生成された応答の全体的な品質を調べることにより、さまざまなガイドラインの影響を評価します。
私たちの調査結果は、ユーザーがLLMSにどのように関与するか、およびAIアシストコミュニケーションを強化する際の構造化された促進ガイダンスの役割をより深く理解しています。
さまざまな指導フレームワークを比較することにより、AIの相互作用のユーザーコンピテンシーを改善するためのより効果的なアプローチに関する洞察を提供し、AIリテラシー、チャットボットの使いやすさ、より応答性の高いAIシステムの設計に影響を与えます。

要約(オリジナル)

Large Language Models (LLMs) have transformed human-computer interaction by enabling natural language-based communication with AI-powered chatbots. These models are designed to be intuitive and user-friendly, allowing users to articulate requests with minimal effort. However, despite their accessibility, studies reveal that users often struggle with effective prompting, resulting in inefficient responses. Existing research has highlighted both the limitations of LLMs in interpreting vague or poorly structured prompts and the difficulties users face in crafting precise queries. This study investigates learner-AI interactions through an educational experiment in which participants receive structured guidance on effective prompting. We introduce and compare three types of prompting guidelines: a task-specific framework developed through a structured methodology and two baseline approaches. To assess user behavior and prompting efficacy, we analyze a dataset of 642 interactions from 107 users. Using Von NeuMidas, an extended pragmatic annotation schema for LLM interaction analysis, we categorize common prompting errors and identify recurring behavioral patterns. We then evaluate the impact of different guidelines by examining changes in user behavior, adherence to prompting strategies, and the overall quality of AI-generated responses. Our findings provide a deeper understanding of how users engage with LLMs and the role of structured prompting guidance in enhancing AI-assisted communication. By comparing different instructional frameworks, we offer insights into more effective approaches for improving user competency in AI interactions, with implications for AI literacy, chatbot usability, and the design of more responsive AI systems.

arxiv情報

著者 Cansu Koyuturk,Emily Theophilou,Sabrina Patania,Gregor Donabauer,Andrea Martinenghi,Chiara Antico,Alessia Telari,Alessia Testa,Sathya Bursic,Franca Garzotto,Davinia Hernandez-Leo,Udo Kruschwitz,Davide Taibi,Simona Amenta,Martin Ruskov,Dimitri Ognibene
発行日 2025-04-10 15:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC | Understanding Learner-LLM Chatbot Interactions and the Impact of Prompting Guidelines はコメントを受け付けていません

Anytime Single-Step MAPF Planning with Anytime PIBT

要約

PIBTは、Lacam、CS-PIBT、WPPLを含む多くの最先端のMAPFメソッドの中核で、人気のあるマルチエージェントパスファインディング(MAPF)メソッドです。
PIBTの主なユーティリティは、非常に高速で効果的なシングルステップMAPFソルバーであり、1ミリ秒以内に数百人のエージェント向けに衝突のないシングルステップソリューションを返すことができることです。
しかし、PIBTの主な欠点は、その優先順位に関して非常に貪欲であり、したがってソリューションの品質が低いことです。
さらに、PIBTは利用可能なすべての計画時間を使用することはできず、最初に見つけたソリューションを返します。
したがって、私たちはいつでもPIBTを開発します。これにより、PIBTと同じ1段階のソリューションがすぐに見つかりますが、いつでもソリューションを継続的に改善します。
私たちは、PIBTが十分な時間を与えられた場合でも、いつでも最適なソリューションに収束することを証明します。
いつでもPIBTがミリ秒以内にシングルステップソリューションの品質を迅速に改善し、最適なシングルステップアクションを見つけることさえできることを実験的に検証します。
ただし、興味深いことに、シングルステップソリューションの品質を改善しても、フルホリゾンソリューションコストに大きな影響はないことがわかりました。

要約(オリジナル)

PIBT is a popular Multi-Agent Path Finding (MAPF) method at the core of many state-of-the-art MAPF methods including LaCAM, CS-PIBT, and WPPL. The main utility of PIBT is that it is a very fast and effective single-step MAPF solver and can return a collision-free single-step solution for hundreds of agents in less than a millisecond. However, the main drawback of PIBT is that it is extremely greedy in respect to its priorities and thus leads to poor solution quality. Additionally, PIBT cannot use all the planning time that might be available to it and returns the first solution it finds. We thus develop Anytime PIBT, which quickly finds a one-step solution identically to PIBT but then continuously improves the solution in an anytime manner. We prove that Anytime PIBT converges to the optimal solution given sufficient time. We experimentally validate that Anytime PIBT can rapidly improve single-step solution quality within milliseconds and even find the optimal single-step action. However, we interestingly find that improving the single-step solution quality does not have a significant effect on full-horizon solution costs.

arxiv情報

著者 Nayesha Gandotra,Rishi Veerapaneni,Muhammad Suhail Saleem,Daniel Harabor,Jiaoyang Li,Maxim Likhachev
発行日 2025-04-10 15:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA | Anytime Single-Step MAPF Planning with Anytime PIBT はコメントを受け付けていません

Independence Is Not an Issue in Neurosymbolic AI

要約

神経相性AIに対する一般的なアプローチは、ニューラルネットワークの最後の層の出力を取得することです。
SoftMaxのアクティベーションを行い、実施したい特定の論理的制約をコードするスパース計算グラフに渡します。
これにより、多くの一般的に使用される神経症性AIモデルで互いに条件付きで独立している一連のランダム変数に対して確率分布が誘導されます。
このような条件付きで独立したランダム変数は、それらの存在が決定論的バイアスと呼ばれる現象と共同浸透することに観察されているため、有害であると見なされています。
この結論に異議を唱える証拠を提供し、決定論的バイアスの現象が神経同質AIを不適切に適用するアーティファクトであることを示します。

要約(オリジナル)

A popular approach to neurosymbolic AI is to take the output of the last layer of a neural network, e.g. a softmax activation, and pass it through a sparse computation graph encoding certain logical constraints one wishes to enforce. This induces a probability distribution over a set of random variables, which happen to be conditionally independent of each other in many commonly used neurosymbolic AI models. Such conditionally independent random variables have been deemed harmful as their presence has been observed to co-occur with a phenomenon dubbed deterministic bias, where systems learn to deterministically prefer one of the valid solutions from the solution space over the others. We provide evidence contesting this conclusion and show that the phenomenon of deterministic bias is an artifact of improperly applying neurosymbolic AI.

arxiv情報

著者 Håkan Karlsson Faronius,Pedro Zuidberg Dos Martires
発行日 2025-04-10 15:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Independence Is Not an Issue in Neurosymbolic AI はコメントを受け付けていません

The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models

要約

実質的に、すべての大規模な言語モデルは、著作権侵害と契約違反に関連するグローバルな不確実性の対象となるデータで事前に訓練されています。
これは、この不確実な法的地位のために、ユーザーと開発者の潜在的なリスクを生み出します。
KL3Mデータプロジェクトは、著作権または契約違反に関連するリスクを最小限に抑える最大の包括的なトレーニングデータパイプラインを導入することにより、この重要な問題に直接直面します。
このプロジェクトの基盤は、1億3200万人以上の文書と、ここで詳述されている厳格な著作権およびライセンスプロトコルを満たすために検証されている16の異なるソースにまたがる数兆個のトークンのコーパスです。
1)これらのドキュメントを取得および処理するソースコード、2)関連する出所とメタデータを備えた元のドキュメント形式、3)標準化された形式でコンテンツを抽出した元のドキュメント形式を含むパイプライン全体をリリースしています。
これらのリソースはすべて、S3、hugging Face、およびGithubでCC-Byの条件で一般に一般に自由に利用できます。
私たちは、AIモデルの開発と使用に対するより倫理的、法的、持続可能なアプローチを促進するために、このプロジェクトを継続することを約束しています。

要約(オリジナル)

Practically all large language models have been pre-trained on data that is subject to global uncertainty related to copyright infringement and breach of contract. This creates potential risk for users and developers due to this uncertain legal status. The KL3M Data Project directly confronts this critical issue by introducing the largest comprehensive training data pipeline that minimizes risks related to copyright or breach of contract. The foundation of this project is a corpus of over 132 million documents and trillions of tokens spanning 16 different sources that have been verified to meet the strict copyright and licensing protocol detailed herein. We are releasing the entire pipeline, including 1) the source code to acquire and process these documents, 2) the original document formats with associated provenance and metadata, 3) extracted content in a standardized format, 4) pre-tokenized representations of the documents, and 5) various mid- and post-train resources such as question-answer, summarization, conversion, drafting, classification, prediction, and conversational data. All of these resources are freely available to the public on S3, Hugging Face, and GitHub under CC-BY terms. We are committed to continuing this project in furtherance of a more ethical, legal, and sustainable approach to the development and use of AI models.

arxiv情報

著者 Michael J Bommarito II,Jillian Bommarito,Daniel Martin Katz
発行日 2025-04-10 15:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The KL3M Data Project: Copyright-Clean Training Resources for Large Language Models はコメントを受け付けていません