要約
ペイウォール、ライセンス、著作権規則は、多くの場合、科学的知識の広範な普及と再利用を制限します。
私たちは、学術的なテキストで科学的知識を抽出することが法的および技術的に実行可能であるという立場をとっています。
テキストの埋め込みなどの現在の方法は、事実上の内容を確実に保存することができず、単純な言い換えは法的に健全ではないかもしれません。
コミュニティに、新しいアイデアを採用するように促します。学術文書をLLMSを使用して知識単位に変換します。
これらのユニットは、スタイルコンテンツのないエンティティ、属性、および関係をキャプチャする構造化データを使用します。
(1)ドイツの著作権法と米国のフェアユースの教義の法的分析に基づいて、著作権で保護された研究テキストから知識を共有するための法的防御可能なフレームワークを形成し、(2)元のテキストからのMCQパフォーマンスによって測定された元のテキストからのほとんど(〜95%)の事実知識を4つの研究領域にまたがって著作権を獲得したテキストから測定します。
著作権から科学的知識を解放することは、言語モデルが著作権で保護されたテキストから重要な事実を再利用できるようにすることにより、科学的研究と教育の変革的利益を約束します。
これをサポートするために、研究文書を知識単位に変換するためのオープンソースツールを共有します。
全体として、私たちの仕事は、著作権を尊重しながら、科学的知識へのアクセスを民主化することの実現可能性を仮定しています。
要約(オリジナル)
Paywalls, licenses and copyright rules often restrict the broad dissemination and reuse of scientific knowledge. We take the position that it is both legally and technically feasible to extract the scientific knowledge in scholarly texts. Current methods, like text embeddings, fail to reliably preserve factual content, and simple paraphrasing may not be legally sound. We urge the community to adopt a new idea: convert scholarly documents into Knowledge Units using LLMs. These units use structured data capturing entities, attributes and relationships without stylistic content. We provide evidence that Knowledge Units: (1) form a legally defensible framework for sharing knowledge from copyrighted research texts, based on legal analyses of German copyright law and U.S. Fair Use doctrine, and (2) preserve most (~95%) factual knowledge from original text, measured by MCQ performance on facts from the original copyrighted text across four research domains. Freeing scientific knowledge from copyright promises transformative benefits for scientific research and education by allowing language models to reuse important facts from copyrighted text. To support this, we share open-source tools for converting research documents into Knowledge Units. Overall, our work posits the feasibility of democratizing access to scientific knowledge while respecting copyright.
arxiv情報
著者 | Christoph Schuhmann,Gollam Rabby,Ameya Prabhu,Tawsif Ahmed,Andreas Hochlehnert,Huu Nguyen,Nick Akinci Heidrich,Ludwig Schmidt,Robert Kaczmarczyk,Sören Auer,Jenia Jitsev,Matthias Bethge |
発行日 | 2025-02-26 18:56:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google